如何训练您的LLM网络代理:一项统计诊断

发表
Xing Han LùXing Han Lù 提交
作者: Dheeraj VattikondaDheeraj Vattikonda, Santhoshi Ravichandran, Emiliano PenalozaEmiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia

摘要

基于LLM的网页智能体最近取得了显著进展,但其中大部分发生在闭源系统中,这加剧了与开源替代方案之间的差距。进展受阻于两个关键挑战:首先,过分关注单步任务而忽视了多步网页交互的复杂性;其次,后期训练基于LLM的网页智能体所需的计算成本高昂。为了解决这个问题,我们提出了首个关于LLM网页智能体后期训练计算资源分配的基于统计学的研究。我们的方法采用两阶段流程:通过监督微调(SFT)训练一个Llama 3.1 8B学生模型模仿一个Llama 3.3 70B教师模型,随后进行策略内强化学习。我们发现这个过程对超参数选择高度敏感,使得详尽的搜索不切实际。为了避免他人进行昂贵的试错,我们采样了1,370种配置,并使用自举法估计有效超参数。我们的结果表明,SFT与策略内强化学习相结合,在WorkArena和MiniWob++上始终优于单独使用任何一种方法。此外,这种策略仅需55%的计算量即可达到MiniWob++上纯SFT的峰值性能,有效地推动了计算-性能帕累托前沿,并且是唯一能缩小与闭源模型差距的策略。
查看 arXiv 页面查看 PDF

评论

Xing Han LùXing Han Lù
论文提交者

基于LLM的网页代理最近取得了显著进展,但其中大部分发生在闭源系统中,从而拉大了与开源替代方案的差距。进展受阻于两个关键挑战——首先,狭隘地关注单步任务,而忽视了多步网页交互的复杂性;其次,对基于LLM的网页代理进行后训练需要高昂的计算成本。为了解决这个问题,我们提出了第一个关于LLM网页代理后训练计算资源分配的统计学研究。我们的方法采用两阶段流程:首先通过SFT训练一个Llama 3.1 8B学生模型来模仿Llama 3.3 70B教师模型,然后进行在策略强化学习。我们发现这个过程对超参数选择高度敏感——穷举搜索不切实际。为了避免他人进行昂贵的试错,我们采样了1,370个配置,并使用自举法来估计有效的超参数。我们的结果表明,在WorkArena和MiniWob++上,结合SFT与在策略RL始终优于单独使用任何一种方法。此外,这种策略在MiniWob++上仅需55%的计算量即可达到纯SFT的峰值表现,从而推动了计算-性能帕累托前沿,并且是唯一能缩小与闭源模型差距的策略。

Manish ShettyManish Shetty

大家好!这项工作非常出色,我很欣赏论文中分析的完整性。我对所使用的代理/动作空间有一个非常基本的问题:

  1. 当模型启用多模态输入时,你们选择基于可访问性树(A11y tree)的动作是否有特殊原因?

  2. 另外,你们对结果/框架如何扩展到基于视觉的动作空间有何看法?会遇到哪些意想不到的问题?

我猜想可访问性树可能没有得到广泛支持,甚至可能会大幅增加上下文长度!

谢谢!