WebAgent-R1:通过端到端多轮强化学习训练网页代理

发表
Zhepei WeiZhepei Wei 提交
作者: Zhepei Wei, Wenlin Yao, Yao Liu, Weizhi Zhang, Qin Lu, Liang Qiu, Changlong Yu, Puyang Xu, Chao Zhang, Bing Yin, Hyokun Yun, Lihong Li

摘要

虽然强化学习 (RL) 在增强大型语言模型 (LLMs) 方面取得了显著成功,但主要集中在单轮任务上,例如解决数学问题。由于动态网页界面中长期决策的复杂性,训练有效的多轮交互网络智能体仍然具有挑战性。在这项工作中,我们提出了 WebAgent-R1,一个简单但有效的端到端多轮强化学习框架,用于训练网络智能体。它通过异步生成多样化的轨迹,完全由取决于任务成功的二元奖励指导,直接从与网络环境的在线交互中学习。在 WebArena-Lite 基准上的实验证明了 WebAgent-R1 的有效性,将 Qwen-2.5-3B 的任务成功率从 6.1% 提高到 33.9%,将 Llama-3.1-8B 的任务成功率从 8.5% 提高到 44.8%,显著优于现有的最先进方法和强大的专有模型,例如 OpenAI o3。深入分析揭示了基于思考的提示策略和通过增加交互进行网络任务的测试时缩放的有效性。我们通过引入两个变体 WebAgent-R1-Zero 和 WebAgent-R1-CoT,进一步研究了不同的强化学习初始化策略,这突出了预热训练阶段(即行为克隆)的重要性,并为在网络智能体中融入长链式思考 (CoT) 推理提供了见解。
查看 arXiv 页面查看 PDF

评论

Zhepei WeiZhepei Wei
论文提交者

WebAgent-R1 是一个简单而有效的端到端多轮强化学习(RL)框架,用于训练网络智能体。它通过与网络环境进行在线交互,异步生成多样化的轨迹,完全由取决于任务成功的二元奖励引导,从而直接进行学习。在 WebArena-Lite 基准测试上的实验表明了 WebAgent-R1 的有效性,将 Qwen-2.5-3B 的任务成功率从 6.1% 提升到 33.9%,将 Llama-3.1-8B 从 8.5% 提升到 44.8%,显著优于现有的最先进方法和强大的专有模型,如 OpenAI o3。深入分析揭示了基于思考的提示策略以及通过增加网络任务交互来实现测试时扩展的有效性。本文进一步研究了不同的强化学习初始化策略,引入了两种变体,即 WebAgent-R1-Zero 和 WebAgent-R1-CoT,它们突出了预热训练阶段(即行为克隆)的重要性,并为在网络智能体中纳入长链式思考(CoT)推理提供了见解。