⏶30

AceReason-Nemotron: 通过强化学习提升数学和代码推理能力

05月22日发表

05月23日由 Yang Chen 提交

作者: Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

摘要

尽管用于推理的大规模强化学习 (RL) 最近取得了一些进展，但构建高性能推理模型的训练方案仍然难以捉摸。前沿模型（如 DeepSeek-R1）的关键实现细节，包括数据整理策略和 RL 训练方案，通常被省略。此外，最新研究表明，对于小型模型而言，蒸馏仍然比 RL 更有效。在这项工作中，我们证明了大规模 RL 可以显著增强强大、中小型模型的推理能力，取得超越最先进的基于蒸馏的模型的结果。我们通过大量消融实验系统地研究了 RL 训练过程，并提出了一个简单但有效的方法：首先在纯数学提示上训练，然后在纯代码提示上训练。值得注意的是，我们发现纯数学 RL 不仅显著提高了强大蒸馏模型在数学基准上的性能（例如，7B / 14B 模型在 AIME 2025 上分别提升 14.6% / 17.2%），而且也提高了代码推理任务的性能（例如，7B / 14B 模型在 LiveCodeBench 上分别提升 6.8% / 5.8%）。此外，更多的纯代码 RL 迭代进一步提高了代码基准的性能，而数学结果基本无下降或无下降。我们开发了一个健壮的数据整理管线，用于收集具有高质量、可验证答案和测试用例的有挑战性的提示，以便在两个领域实现基于验证的 RL。最后，我们识别了关键的实验见解，包括课程学习（逐步增加响应长度）和在策略参数更新的稳定作用。我们发现 RL 不仅激发了在预训练和有监督微调（如蒸馏）期间获得的基础推理能力，而且突破了模型推理能力的极限，使其能够解决以前无法解决的问题。

查看 arXiv 页面查看 PDF

Yang Chen

论文作者

论文提交者

AceReason-Nemotron：通过强化学习 (RL) 提升数学和代码推理能力

我们建议首先对仅包含数学内容的提示进行 RL，然后对仅包含代码内容的提示进行 RL。

我们的主要发现包括：

仅对数学内容进行 RL 显著提升了数学和代码基准的表现！
扩展的仅对代码内容进行 RL 的迭代显著提高了代码性能，同时对数学推理任务造成的退化极小或没有。
RL 不仅激发了预训练和 SFT 期间获得的基础推理能力（如 pass@1 的显著提升所示），而且还将模型的推理能力推向极限，以解决以前无法解决的问题（如 pass@64 的显著增益所示）。

我们正在 Hugging Face 上发布模型，并在论文中提供了训练方法和实现细节。

🤗 上的模型： https://huggingface.co/nvidia/AceReason-Nemotron-14B

AceReason-Nemotron: 通过强化学习提升数学和代码推理能力

摘要

评论