AceReason-Nemotron: 通过强化学习提升数学和代码推理能力

发表
Yang ChenYang Chen 提交
作者: Yang ChenYang Chen, Zhuolin YangZhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei PingWei Ping

摘要

尽管用于推理的大规模强化学习 (RL) 最近取得了一些进展,但构建高性能推理模型的训练方案仍然难以捉摸。前沿模型(如 DeepSeek-R1)的关键实现细节,包括数据整理策略和 RL 训练方案,通常被省略。此外,最新研究表明,对于小型模型而言,蒸馏仍然比 RL 更有效。在这项工作中,我们证明了大规模 RL 可以显著增强强大、中小型模型的推理能力,取得超越最先进的基于蒸馏的模型的结果。我们通过大量消融实验系统地研究了 RL 训练过程,并提出了一个简单但有效的方法:首先在纯数学提示上训练,然后在纯代码提示上训练。值得注意的是,我们发现纯数学 RL 不仅显著提高了强大蒸馏模型在数学基准上的性能(例如,7B / 14B 模型在 AIME 2025 上分别提升 14.6% / 17.2%),而且也提高了代码推理任务的性能(例如,7B / 14B 模型在 LiveCodeBench 上分别提升 6.8% / 5.8%)。此外,更多的纯代码 RL 迭代进一步提高了代码基准的性能,而数学结果基本无下降或无下降。我们开发了一个健壮的数据整理管线,用于收集具有高质量、可验证答案和测试用例的有挑战性的提示,以便在两个领域实现基于验证的 RL。最后,我们识别了关键的实验见解,包括课程学习(逐步增加响应长度)和在策略参数更新的稳定作用。我们发现 RL 不仅激发了在预训练和有监督微调(如蒸馏)期间获得的基础推理能力,而且突破了模型推理能力的极限,使其能够解决以前无法解决的问题。
查看 arXiv 页面查看 PDF

评论

Yang ChenYang Chen
论文作者
论文提交者

AceReason-Nemotron:通过强化学习 (RL) 提升数学和代码推理能力

我们建议首先对仅包含数学内容的提示进行 RL,然后对仅包含代码内容的提示进行 RL。

我们的主要发现包括:

  • 仅对数学内容进行 RL 显著提升了数学和代码基准的表现!

  • 扩展的仅对代码内容进行 RL 的迭代显著提高了代码性能,同时对数学推理任务造成的退化极小或没有。

  • RL 不仅激发了预训练和 SFT 期间获得的基础推理能力(如 pass@1 的显著提升所示),而且还将模型的推理能力推向极限,以解决以前无法解决的问题(如 pass@64 的显著增益所示)。

我们正在 Hugging Face 上发布模型,并在论文中提供了训练方法和实现细节。

🤗 上的模型: https://huggingface.co/nvidia/AceReason-Nemotron-14B