⏶128
DeepSearch:通过蒙特卡洛树搜索实现可验证奖励,克服强化学习瓶颈
发表
由
Fang Wu 提交

作者:
Fang Wu,
Weihao Xuan, Heli Qi, Ximing Lu, Aaron Tu, Li Erran Li, Yejin Choi


摘要
AI 生成总结
DeepSearch 将蒙特卡洛树搜索集成到 RLVR 训练中,以增强探索和信用分配,在降低计算成本的同时取得了最先进的性能。尽管 RLVR 已成为 LLM 中发展高级推理能力的重要组成部分,但现有研究已记录了在数千次优化步骤后出现的训练平台期,尽管计算投入增加,但性能提升却显著下降。这种限制源于当前 RLVR 实践中固有的稀疏探索模式,模型依赖于有限的 rollout,这些 rollout 经常错过关键的推理路径,并且无法系统地覆盖解空间。我们提出了 DeepSearch,一个将蒙特卡洛树搜索直接集成到 RLVR 训练中的框架。与仅在推理时依赖树搜索的现有方法不同,DeepSearch 将结构化搜索嵌入训练循环中,从而实现系统化探索和跨推理步骤的细粒度信用分配。通过训练时的探索,DeepSearch 解决了探索不足这一根本瓶颈,这种瓶颈会导致在长时间训练步骤中性能提升逐渐减弱。我们的贡献包括:(1) 一个全局前沿选择策略,该策略优先考虑搜索树中有希望的节点;(2) 基于熵的引导选择,用于识别用于监督的置信路径;以及 (3) 带有解决方案缓存的自适应回放缓冲区训练,以提高效率。在数学推理基准上的实验表明,DeepSearch 的平均准确率为 62.95%,并为 1.5B 推理模型创造了新的最先进水平——其 GPU 小时数比扩展训练方法少 5.7 倍。这些结果突显了策略性探索优于蛮力扩展的重要性,并展示了算法创新在推进 RLVR 方法方面的潜力。DeepSearch 通过系统化搜索而不是延长计算时间,为扩展推理能力开辟了新的方向。
🔥 简洁 & 宣传
🚀 DeepSearch-1.5B 在 1.5B LMs 的数学推理方面创下新的 SOTA:
✅ 平均准确率 62.95%(比先前最佳值提高 1.25%)
✅ GPU 时间比扩展训练少 5.7 倍
核心思想:将 MCTS 引入训练,而不仅仅是推理,以实现系统性探索和更好的信用分配。
👉 论文:https://arxiv.org/pdf/2509.25454
👉 模型:https://huggingface.co/fangwu97/DeepSearch-1.5B
🧠 技术 & 深刻
我们引入了 DeepSearch,一个将蒙特卡洛树搜索集成到 RLVR 训练中的框架。
与现有将搜索限制在推理阶段的方法不同,DeepSearch 在训练过程中系统地探索推理路径——实现细粒度的信用分配、高效的监督和鲁棒的探索。
📊 结果:
-- 数学推理平均准确率 62.95%(1.5B 模型 SOTA)
-- 比 Nemotron-Reasoning-Qwen-1.5B v2 高出 1.25%
-- 比深度缩放训练使用的 GPU 时间少 5.7 倍