超越回合限制:使用动态上下文窗口训练深度搜索代理

发表
xianghaoxianghao 提交
作者: Qiaoyu TangQiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru ZhangZhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin

摘要

AI 生成总结
DeepMiner 是一个使用高难度训练任务和动态上下文管理的框架,通过强化学习增强了多轮推理智能体,在多个基准上取得了显著的性能提升。
尽管最近在推理模型方面的进展通过强化学习展示了认知行为,但现有方法在多轮长时程交互的智能体中激发深度推理能力方面遇到了困难。我们提出了 DeepMiner,这是一个新颖的框架,通过引入高难度训练任务和动态上下文窗口来激发这些能力。DeepMiner 采用一种逆向构造方法,从真实的网络来源生成复杂但可验证的问答对,这确保了训练数据的挑战性和可靠性,同时将认知能力注入多轮推理场景。我们进一步设计了一种优雅而有效的动态上下文管理策略,用于训练和推理,利用滑动窗口机制,同时消除了对外部摘要模型的依赖,从而有效地使模型能够处理不断扩展的长时程上下文。通过在 Qwen3-32B 上进行强化学习,我们开发了 DeepMiner-32B,该模型在多个搜索智能体基准测试中取得了显著的性能提升。DeepMiner 在 BrowseComp-en 上达到了 33.5% 的准确率,比之前最好的开源智能体高出近 20 个百分点,并在 BrowseComp-zh、XBench-DeepSearch 和 GAIA 上展现出了一致的改进。值得注意的是,我们的动态上下文管理能够在标准的 32k 上下文长度内实现近 100 轮的持续交互,有效解决了限制现有交互式系统上下文长度的限制。
查看 arXiv 页面查看 PDF

评论

xianghaoxianghao
论文提交者

尽管最近在推理模型方面取得了进展,能够通过强化学习展示认知行为,但现有方法难以在具有长时序交互的多轮代理中唤起深层推理能力。我们提出了 DeepMiner,一个新颖的框架,通过引入高难度训练任务和动态上下文窗口来激发这些能力。DeepMiner 采用反向构建方法,从真实的网络来源生成复杂但可验证的问题-答案对,这确保了训练数据的挑战性和可靠性,同时将认知能力注入多轮推理场景。我们还设计了一种优雅而有效的动态上下文管理策略,用于训练和推理,利用滑动窗口机制,同时消除了对外部摘要模型的依赖,从而有效地使模型能够处理不断扩展的长时序上下文。通过在 Qwen3-32B 上进行强化学习,我们开发了 DeepMiner-32B,该模型在多个搜索代理基准上取得了显著的性能提升。DeepMiner 在 BrowseComp-en 上达到了 33.5% 的准确率,比之前最好的开源代理提高了近 20 个百分点,并在 BrowseComp-zh、XBench-DeepSearch 和 GAIA 上展示了持续的改进。值得注意的是,我们的动态上下文管理使得在标准的 32k 上下文长度内能够进行近 100 轮的持续交互,有效解决了限制现有多个交互系统的上下文限制。