⏶46

如何训练您的LLM网络代理：一项统计诊断

07月05日发表

07月09日由 Xing Han Lù 提交

作者: Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia

摘要

基于LLM的网页智能体最近取得了显著进展，但其中大部分发生在闭源系统中，这加剧了与开源替代方案之间的差距。进展受阻于两个关键挑战：首先，过分关注单步任务而忽视了多步网页交互的复杂性；其次，后期训练基于LLM的网页智能体所需的计算成本高昂。为了解决这个问题，我们提出了首个关于LLM网页智能体后期训练计算资源分配的基于统计学的研究。我们的方法采用两阶段流程：通过监督微调（SFT）训练一个Llama 3.1 8B学生模型模仿一个Llama 3.3 70B教师模型，随后进行策略内强化学习。我们发现这个过程对超参数选择高度敏感，使得详尽的搜索不切实际。为了避免他人进行昂贵的试错，我们采样了1,370种配置，并使用自举法估计有效超参数。我们的结果表明，SFT与策略内强化学习相结合，在WorkArena和MiniWob++上始终优于单独使用任何一种方法。此外，这种策略仅需55%的计算量即可达到MiniWob++上纯SFT的峰值性能，有效地推动了计算-性能帕累托前沿，并且是唯一能缩小与闭源模型差距的策略。

查看 arXiv 页面查看 PDF

Xing Han Lù

论文提交者

基于LLM的网页代理最近取得了显著进展，但其中大部分发生在闭源系统中，从而拉大了与开源替代方案的差距。进展受阻于两个关键挑战——首先，狭隘地关注单步任务，而忽视了多步网页交互的复杂性；其次，对基于LLM的网页代理进行后训练需要高昂的计算成本。为了解决这个问题，我们提出了第一个关于LLM网页代理后训练计算资源分配的统计学研究。我们的方法采用两阶段流程：首先通过SFT训练一个Llama 3.1 8B学生模型来模仿Llama 3.3 70B教师模型，然后进行在策略强化学习。我们发现这个过程对超参数选择高度敏感——穷举搜索不切实际。为了避免他人进行昂贵的试错，我们采样了1,370个配置，并使用自举法来估计有效的超参数。我们的结果表明，在WorkArena和MiniWob++上，结合SFT与在策略RL始终优于单独使用任何一种方法。此外，这种策略在MiniWob++上仅需55%的计算量即可达到纯SFT的峰值表现，从而推动了计算-性能帕累托前沿，并且是唯一能缩小与闭源模型差距的策略。

Manish Shetty

大家好！这项工作非常出色，我很欣赏论文中分析的完整性。我对所使用的代理/动作空间有一个非常基本的问题：

当模型启用多模态输入时，你们选择基于可访问性树（A11y tree）的动作是否有特殊原因？
另外，你们对结果/框架如何扩展到基于视觉的动作空间有何看法？会遇到哪些意想不到的问题？

我猜想可访问性树可能没有得到广泛支持，甚至可能会大幅增加上下文长度！

谢谢！

如何训练您的LLM网络代理：一项统计诊断

摘要

评论