⏶18
WebDancer: 迈向自主信息寻求代理
发表
由
Jialong Wu 提交

作者:
Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

摘要
解决复杂的现实问题需要深入的信息搜索和多步推理。agentic 系统(以 Deep Research 为例)的最新进展突显了自主多步研究的潜力。在这项工作中,我们提出了一个从数据中心和训练阶段角度构建端到端 agentic 信息搜索 agent 的统一范例。我们的方法包含四个关键阶段:(1) 浏览数据构建,(2) 轨迹采样,(3) 用于有效冷启动的监督微调,以及 (4) 用于增强泛化能力的强化学习。我们在基于 ReAct 的网络 agent WebDancer 中实例化了这个框架。在具有挑战性的信息搜索基准 GAIA 和 WebWalkerQA 上的实证评估表明,WebDancer 表现出色,取得了可观的结果,并突显了我们训练范例的有效性。对 agent 训练的进一步分析提供了宝贵的见解和可行的、系统的路径,用于开发更强大的 agentic 模型。代码和演示将发布在 https://github.com/Alibaba-NLP/WebAgent。
解决复杂的现实世界问题需要深入的信息检索和多步推理。代理系统(例如 Deep Research)的最新进展强调了自主多步研究的潜力。在这项工作中,我们从数据中心和训练阶段的角度,提出了构建端到端代理信息检索代理的统一范例。我们的方法包含四个关键阶段:(1) 浏览数据构建,(2) 轨迹采样,(3) 用于有效冷启动的监督微调,以及 (4) 用于增强泛化能力的强化学习。我们在基于 ReAct 的网络代理 WebDancer 中实例化了这个框架。在具有挑战性的信息检索基准 GAIA 和 WebWalkerQA 上的实证评估表明,WebDancer 表现出色,取得了可观的结果,并突显了我们训练范例的有效性。对代理训练的进一步分析提供了有价值的见解和可行的、系统性的途径来开发更强大的代理模型。