具有可验证奖励的强化学习隐式激励基础LLM中的正确推理

发表
Shun ZhengShun Zheng 提交
作者: XumengWenXumeng Wen, Zihan Liu, Shun ZhengShun Zheng, zhijianxuZhijian Xu, Shengyu Ye, Zhirong Wu, Xiao LiangXiao Liang, YangWang92Yang Wang, Junjie Li, Ziming Miao, Jiang BianJiang Bian, Mao Yang

摘要

可验证奖励强化学习(RLVR)已成为提升大型语言模型(LLM)推理能力的一个有前景的范式。然而,一个关键的悖论使其有效性蒙上阴影:RLVR 调优的模型在寻找解决方案的 Pass@K 指标上往往不如其基础模型,这导致了一种假设,即 RLVR 只是以牺牲推理多样性为代价重新加权了现有推理路径。在这项工作中,我们通过识别问题根源来解决这一矛盾:Pass@K 指标本身就是衡量推理的一个有缺陷的指标,因为它会认可那些可能源于不准确或不完整思维链(CoT)的正确最终答案。为了解决这个问题,我们引入了一个更精确的评估指标 CoT-Pass@K,它要求推理路径和最终答案都必须正确。我们提供了一个新的理论基础,它形式化了 RLVR 如何与传统强化学习不同,其独特结构旨在激励逻辑完整性。我们的实证结果是支持性的:使用 CoT-Pass@K,我们观察到 RLVR 可以激励正确推理在所有 K 值上的泛化。此外,通过分析训练动态,我们发现这种增强的推理能力在训练过程的早期就出现并平滑泛化。我们的工作为 RLVR 的作用提供了清晰的视角,提供了一种更可靠的评估方法,并证实了其真正推动机器推理的潜力。
查看 arXiv 页面查看 PDF
具有可验证奖励的强化学习隐式激励基础LLM中的正确推理

评论

Shun ZhengShun Zheng
论文作者
论文提交者

我们提出了一个理论框架经验证据,证明可验证奖励强化学习(RLVR)隐式地激励大型语言模型(LLM)中的正确推理。这一见解解决了该领域的一个关键争论:RLVR驱动的改进是否超出了基础LLM的固有能力。尽管普遍的假设将Pass@1的提升仅仅归因于预训练模型固有的Pass@K性能,但我们的发现揭示,随着训练的进行,RLVR积极地促进了更深层次的推理

Julius DuinJulius Duin

嗯,事后回顾一下,值得研究一下所有最先进推理模型(SOTA reasoning models)的 pass@x 结果在其实际的思维链(CoT)中都包含了些什么。

Shun ZhengShun Zheng
论文作者
论文提交者

RLVR后或蒸馏推理模型通常表现出显著更高的正确CoT推理概率,与基础模型或指令模型相比。

关于SOTA推理模型,它们的大多数CoT实际上是正确的。