WebSailor:驾驭超人推理的 Web 代理

发表
Litu OuLitu Ou 提交
作者: Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Litu OuLitu Ou, Jialong WuJialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, Weizhou ShenWeizhou Shen, Junkai Zhang, Dingchu Zhang, Xixi WuXixi Wu, Yong Jiang, Ming Yan, Pengjun Xie, Fei Huang, Jingren Zhou

摘要

超越人类认知局限性代表了 LLM 训练的一个关键前沿。像 DeepResearch 这样的专有代理系统已经在极其复杂的信息搜寻基准(如 BrowseComp)上展示了超人的能力,这是以前无法实现的壮举。我们认为他们的成功取决于开源模型中缺少的一种复杂的推理模式:系统地减少在广阔的信息环境中导航时出现的极端不确定性的能力。基于这种洞察力,我们推出了 WebSailor,这是一种完整的后训练方法,旨在灌输这种关键能力。我们的方法包括通过结构化抽样和信息模糊处理生成新颖的高不确定性任务、RFT 冷启动以及一种高效的代理式 RL 训练算法,即复制抽样策略优化 (DUPO)。通过这个集成的流水线,WebSailor 在复杂的信息搜寻任务中显著优于所有开源代理,与专有代理的性能相匹配,并缩小了能力差距。
查看 arXiv 页面查看 PDF
WebSailor:驾驭超人推理的 Web 代理
WebSailor:驾驭超人推理的 Web 代理

评论

Litu OuLitu Ou
论文作者
论文提交者

在本文中,我们提出了 WebSailor,它具有以下特点:

  • 一种完整的后训练方法,使模型能够进行扩展思维和信息检索,最终使其能够成功完成以前被认为是无法解决的极其复杂的任务。

  • 引入了 SailorFog-QA,这是一个可扩展的 QA 基准,具有高度不确定性和难度,通过图采样和信息混淆的新颖数据合成方法进行策划。

  • 有效的后训练流程,包括 (1) 从专家轨迹中高质量重建简洁推理以获得清晰监督,(2) 两阶段训练过程,包括 RFT 冷启动阶段,然后是复制采样策略优化 (DUPO),这是一种在有效性和效率方面都表现出色的高效智能体强化学习算法。

  • WebSailor-72B 显著优于所有开源智能体和框架,同时缩小了与领先专有系统的性能差距,在 BrowseComp-en 上取得了 12.0% 的分数,在 BrowseComp-zh 上取得了 30.1% 的分数,在 GAIA 上取得了 55.4% 的分数。

Screenshot 2025-07-04 at 5.24.43 PM.png

Jialong WuJialong Wu
论文作者

访问我们的项目:https://github.com/Alibaba-NLP/WebAgent!