⏶86
WebSailor-V2:通过合成数据和可扩展强化学习弥合与专有代理的鸿沟
发表
由
Jialong Wu 提交

作者: Kuan Li,
Zhongwang Zhang, Huifeng Yin, Rui Ye,
Yida Zhao, Liwen Zhang,
Litu Ou, Dingchu Zhang,
Xixi Wu,
Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang,
Pengjun Xie, Fei Huang, Jingren Zhou


摘要
AI 生成总结
WebSailor 是一种训练后方法,它通过系统性的不确定性减少来增强开源模型,使其在复杂的信息检索任务中达到专有智能体的性能。超越人类认知限制是 LLM 训练中的一个关键前沿。DeepResearch 等专有代理系统在极其复杂的信息搜索基准(如 BrowseComp)上展现出了超人的能力,这在以前是无法实现的。我们认为,它们的成功依赖于一种在开源模型中不存在的复杂推理模式:在导航广阔的信息领域时系统性地降低不确定性的能力。基于这一见解,我们引入了 WebSailor,这是一种完整的训练后方法,旨在灌输这种关键能力。我们的方法包括通过结构化采样和信息混淆、RFT 冷启动以及一种高效的代理 RL 训练算法 Duplicating Sampling Policy Optimization (DUPO) 来生成新颖的高不确定性任务。通过这种集成管道,WebSailor 在复杂的信息搜索任务中显著优于所有开源代理,与专有代理的性能相匹配,并缩小了能力差距。
评论

论文作者
论文提交者
Github: https://github.com/Alibaba-NLP/DeepResearch/
博客: https://tongyi-agent.github.io/blog/
为了显著提升开源网络代理的能力,我们提出了 WebSailor-V2,一个完整的训练后调优流程,包括数据构建、监督微调(SFT)和强化学习(RL)。我们的方法有两个关键创新:(1)在数据方面,我们开发了 SailorFog-QA-2,一个从密集互联知识图中构建的新型数据集,它引入了比简单混淆更广泛的不确定性,从而促进了更复杂的推理。(2)在训练方面,我们设计了一个双环境 RL 框架,结合了一个高保真模拟器用于快速、低成本的算法迭代,以及一个健壮、受管理的真实世界环境用于稳定的最终策略训练,所有这些都集成在一个共生数据-策略反馈循环中。在 Qwen3-30B-A3B 模型上训练的 WebSailorV2 取得了最先进的结果,在 BrowseComp-EN 上得分为 35.3,在 BrowseComp-ZH 上得分为 44.1,在 Humanity’s Last Exam (HLE) 上得分为 30.6。值得注意的是,我们的 30B-A3B MOE 代理显著优于所有现有的开源代理,甚至超越了 671B DeepSeek-V3.1,其性能可与领先的专有系统媲美。