超越十轮:通过大规模异步强化学习解锁长时程代理搜索

发表
Shusheng XuShusheng Xu 提交
作者: Jiaxuan Gao, Wei Fu, Minyang Xie, Shusheng Xu, Chuyi He, Zhiyu Mei, Banghua Zhu, Yi Wu

摘要

基于 LLM 的代理的最新进展展示了其在通过集成外部工具处理复杂、知识密集型任务方面的卓越能力。在各种工具选择中,搜索工具在访问海量外部知识方面发挥着关键作用。然而,开源代理在实现专家级搜索智能方面仍有不足,即解决模糊查询、生成精确搜索、分析结果和进行彻底探索的能力。现有方法在可扩展性、效率和数据质量方面存在不足。例如,现有在线 RL 方法中的小转数限制(例如 <=10)限制了复杂策略的学习。本文介绍了 ASearcher,一个用于搜索代理大规模 RL 训练的开源项目。我们的主要贡献包括:(1)可扩展的全异步 RL 训练,可实现长程搜索,同时保持高训练效率。(2) 基于提示的 LLM 代理,可自主合成高质量和有挑战性的 QA,创建大规模 QA 数据集。通过 RL 训练,我们基于提示的 QwQ-32B 代理取得了显著改进,在 xBench 和 GAIA 上分别获得了 46.7% 和 20.8% 的 Avg@4 增益。值得注意的是,我们的代理在训练期间表现出极长的搜索,工具调用超过 40 轮,输出令牌超过 150k。通过简单的代理设计和不使用外部 LLM,ASearcher-Web-QwQ 在 xBench 和 GAIA 上分别取得了 42.1 和 52.8 的 Avg@4 分数,超过了现有的开源 32B 代理。我们将在 https://github.com/inclusionAI/ASearcher 上开源我们的模型、训练数据和代码。
查看 arXiv 页面查看 PDF

评论

Shusheng XuShusheng Xu
论文提交者

🔍我们引入了ASearcher,一个由端到端强化学习训练的搜索智能体

大规模(最多128回合)使用AReaL的强化学习解锁了长周期智能体搜索

(在GAIA/xBench上提高了+20.8/+40.6%)

💻数据、代码和模型:https://github.com/inclusionAI/ASearcher

📄论文:https://arxiv.org/abs/2508.07976


智能体强化学习(回合限制=128)→ 轨迹收集时间高方差。

批量强化学习等待最慢的轨迹 → 训练慢 💸

AReaL解耦了训练和轨迹收集 →

✅ 接近100%的GPU利用率

显著加速!

📉 图: 完全异步训练 vs. 批量训练


我们构建了一个数据合成智能体,用于自动生成问答对:

高质量问答合成的两个关键操作:

  • 模糊化(模糊关键细节)

  • 事实注入(添加外部事实)

✅ 严格验证确保了问答质量和难度。

new x2new x2

测试