WebDancer: 迈向自主信息寻求代理

发表
Jialong WuJialong Wu 提交
作者: Jialong WuJialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

摘要

解决复杂的现实问题需要深入的信息搜索和多步推理。agentic 系统(以 Deep Research 为例)的最新进展突显了自主多步研究的潜力。在这项工作中,我们提出了一个从数据中心和训练阶段角度构建端到端 agentic 信息搜索 agent 的统一范例。我们的方法包含四个关键阶段:(1) 浏览数据构建,(2) 轨迹采样,(3) 用于有效冷启动的监督微调,以及 (4) 用于增强泛化能力的强化学习。我们在基于 ReAct 的网络 agent WebDancer 中实例化了这个框架。在具有挑战性的信息搜索基准 GAIA 和 WebWalkerQA 上的实证评估表明,WebDancer 表现出色,取得了可观的结果,并突显了我们训练范例的有效性。对 agent 训练的进一步分析提供了宝贵的见解和可行的、系统的路径,用于开发更强大的 agentic 模型。代码和演示将发布在 https://github.com/Alibaba-NLP/WebAgent
查看 arXiv 页面查看 PDF

评论

Jialong WuJialong Wu
论文作者
论文提交者

解决复杂的现实世界问题需要深入的信息检索和多步推理。代理系统(例如 Deep Research)的最新进展强调了自主多步研究的潜力。在这项工作中,我们从数据中心和训练阶段的角度,提出了构建端到端代理信息检索代理的统一范例。我们的方法包含四个关键阶段:(1) 浏览数据构建,(2) 轨迹采样,(3) 用于有效冷启动的监督微调,以及 (4) 用于增强泛化能力的强化学习。我们在基于 ReAct 的网络代理 WebDancer 中实例化了这个框架。在具有挑战性的信息检索基准 GAIA 和 WebWalkerQA 上的实证评估表明,WebDancer 表现出色,取得了可观的结果,并突显了我们训练范例的有效性。对代理训练的进一步分析提供了有价值的见解和可行的、系统性的途径来开发更强大的代理模型。

Jialong WuJialong Wu
论文作者
论文提交者

请访问我们的项目:https://github.com/Alibaba-NLP/WebAgent!

Baixuan LiBaixuan Li

🕺出色的工作!

Lawrence LaiLawrence Lai

很棒的工作,很有见地的想法