rStar2-Agent:Agentic推理技术报告

发表
Li Lyna ZhangLi Lyna Zhang 提交
作者: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna ZhangLi Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang

摘要

我们介绍了 rStar2-Agent,一个 14B 的数学推理模型,通过 agentic 强化学习进行训练,以达到前沿水平的表现。超越了目前的长 CoT,该模型展现了先进的认知行为,例如在使用 Python 编码工具前仔细思考,以及反思代码执行反馈,从而在复杂的解决问题过程中自主探索、验证和完善中间步骤。这种能力是通过三项关键创新实现的,这些创新使 agentic RL 能够大规模有效运行:(i)一个高效的 RL 基础设施,拥有一个可靠的 Python 代码环境,支持高吞吐量执行并降低了高额的 rollout 成本,能够在有限的 GPU 资源(64 个 MI300X GPU)上进行训练;(ii)GRPO-RoC,一个具有 Resample-on-Correct rollout 策略的 agentic RL 算法,解决了来自编码工具的固有环境噪声,使模型能够在代码环境中更有效地进行推理;(iii)一个高效的 agent 训练方法,从非推理 SFT 开始,通过多 RL 阶段进行,以最小的计算成本实现了先进的认知能力。为此,rStar2-Agent 在一周内仅用 510 个 RL 步骤就将一个预训练的 14B 模型提升到最先进水平,在 AIME24 上取得了 80.6% 的平均 pass@1 分数,在 AIME25 上取得了 69.8% 的分数,显著缩短响应时间,超越了 DeepSeek-R1 (671B)。除了数学,rStar2-Agent-14B 在对齐、科学推理和 agentic 工具使用任务上也展现了强大的泛化能力。代码和训练方法可在 https://github.com/microsoft/rStar 获取。
查看 arXiv 页面查看 PDF

评论

Li Lyna ZhangLi Lyna Zhang
论文作者
论文提交者

我们推出了 rStar2-Agent-14B 🚀 — 一个经过大规模 Agentic RL 训练的 14B 模型,在数学推理方面与 DeepSeek-R1 (671B) 相媲美。在此处查看我们的技术报告、代码和食谱!

rstar2-agent.png

Adina YakefuAdina Yakefu

好论文,恭喜!🎉 请随意点击作者列表中的您的名字来认领。 @lynazhang

Sadegh MahdaviSadegh Mahdavi

这个想法非常有意思!我认为,如果论文的预告(teaser)能够更明确地提及以下两点,会更加清晰:

  • 基础模型是 Qwen3-14B-Base,该模型已经过大量推理数据的中间训练(因此 RL 阶段并非完全是零样本)。

  • 该方法并未超越 Qwen3-14B 本身,并且 Qwen3-14B 的结果已添加到第一张表中。

我不相信这是出于恶意,但报告首页的写法确实有些夸大其词。

ZhangZhang

您好,@smahdavi4,非常感谢您的反馈!

1) 关于第一点,尚不完全清楚 Qwen3-14B-Base 是否在训练过程中接收了额外的推理。在我们的实验中,在应用非推理 SFT 后,其在 AIME24 上的表现接近于零,使用编码工具的平均回滚长度约为 1k token。相比之下,当我们最近在训练中期使用长 CoT 推理数据进行训练,然后应用非推理 SFT 时,起始响应长度达到了约 10k token。基于此比较,我们倾向于认为 Qwen3-14B-Base 在其技术报告中描述的第二个推理阶段之后,并未进行额外的长 CoT 中期训练。

我们还想指出,“zero-RL”的定义并不完全清晰。在我们的工作中,我们采用了大多数 RL 研究的相同约定,即“zero-RL”是指将 RL 应用于给定的预训练模型。由于参与预训练的人通常不知道预训练过程中确切的推理相关训练和数据,这仍然是一个值得进一步探讨的开放性问题。

2) 关于第二点,我们在预告片中没有包含 Qwen3-14B-Official,因为正如 Qwen3 技术报告所述,其训练后主要涉及从 Qwen3-235B 蒸馏的大规模 SFT,而不是 RL。尽管如此,我们在主结果(表 3)中确实与 Qwen3-14B 进行了比较。如所示,我们的模型在 Math-500 (97.8 vs. 96.8)、AIME24 (80.6 vs. 79.3) 和 HMMT 25 (52.7 vs. 48.9) 上均优于 Qwen3-14B。在 AIME25 上,我们的表现略逊一筹 (69.8 vs. 70.4)。

再次感谢您提出这些问题。我们希望这能澄清我们的推理,并热忱欢迎就这些问题进行进一步讨论。