ProRL:长期强化学习拓展大型语言模型的推理边界

发表
Shizhe DiaoShizhe Diao 提交
作者: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian HuJian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

摘要

以推理为中心的大型语言模型方面的最新进展,已将强化学习(RL)突出为一种使模型与可验证奖励对齐的有前途的方法。然而,RL是否真正扩展了模型的推理能力,或者仅仅是放大了基础模型分布中已经存在的、高奖励的输出,以及持续扩大RL计算是否能可靠地提高推理性能,这些问题仍然存在争议。在这项工作中,我们通过证明延长RL(ProRL)训练可以发现基础模型即使在大量采样下也无法触及的新型推理策略,从而挑战了普遍的假设。我们引入了ProRL,这是一种新颖的训练方法,它结合了KL散度控制、参考策略重置和多样化的任务套件。我们的实证分析表明,RL训练的模型在广泛的pass@k评估中始终优于基础模型,包括基础模型无论尝试次数多少都完全失败的场景。我们进一步表明,推理边界的改进与基础模型的任务能力和训练持续时间密切相关,这表明RL可以随着时间的推移探索并填充解决方案空间的新区域。这些发现为RL在语言模型中有效扩展推理边界的条件提供了新见解,并为未来在推理领域进行长期RL研究奠定了基础。我们发布模型权重以支持进一步研究:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
查看 arXiv 页面查看 PDF

评论

Shizhe DiaoShizhe Diao
论文提交者

ProRL:延长强化学习拓展大型语言模型的推理边界

Pranav PawarPranav Pawar

现有的 GRPO 逻辑是否有任何重大的数学变化?与 o3-mini 相比呢?