⏶23
AceReason-Nemotron 1.1:SFT与RL协同赋能数学与代码推理
发表
由
Zihan Liu 提交
作者:
Zihan Liu,
Zhuolin Yang,
Yang Chen, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro,
Wei Ping
摘要
在这项工作中,我们研究了监督微调(SFT)和强化学习(RL)在开发强大推理模型方面的协同作用。我们首先通过两种扩展策略来整理SFT训练数据:增加收集到的提示数量和每个提示生成的响应数量。这两种方法都使推理性能得到了显著提升,其中扩展提示数量带来了更显著的收益。然后,我们探讨了以下关于SFT和RL协同作用的问题:(i) 更强的SFT模型在经过大规模RL训练后是否始终能带来更好的最终性能?(ii) 在RL训练期间,如何确定合适的采样温度,以有效平衡给定SFT初始化时的探索和利用?我们的研究结果表明,(i) 是成立的,前提是进行了有效的RL训练,尤其是在仔细选择采样温度以将温度调整后的熵保持在0.3左右时,这是一个在探索和利用之间取得良好平衡的设置。值得注意的是,在整个RL过程中,初始SFT模型之间的性能差距显著缩小。凭借强大的SFT基础以及对SFT和RL协同作用的深入理解,我们的AceReason-Nemotron-1.1 7B模型在具有挑战性的数学和代码基准测试中显著优于AceReason-Nemotron-1.0,并在基于Qwen2.5-7B的推理模型中取得了新的最先进性能,从而证明了我们后训练方案的有效性。我们在此发布模型和数据:https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B
• 我们研究了SFT训练的扩展行为,发现增加(i)提示的数量、(ii)训练数据中每个提示的响应数量,以及(iii)训练轮次的数量,都能提升性能,其中(i)带来更显著的增益,而(iii)在第五个轮次后趋于平稳。
• 我们发现,在RL训练后,更强的SFT模型始终能带来更好的最终性能,前提是RL是有效的,尤其是在训练时,采样温度被调整以保持温度调整后的熵在0.3左右,这在探索和利用之间取得了良好平衡。我们还发现,在相同的有效RL过程下,不同SFT模型之间的性能差距大大缩小。
• 我们研究了在RL训练期间处理超出长度限制的响应的策略。分配负奖励或掩盖整个样本(即,过长过滤)。我们发现后者在较短的限制(8K-16K)下有所帮助,但在24K时效果减弱,在32K时损害性能。
• 利用我们强大的SFT模型以及对SFT-RL协同作用的洞察,我们的AceReason-Nemotron-1.1 7B模型在数学和代码推理基准测试中取得了新的最先进性能。