强化学习真的能激励LLM在基础模型之上展现推理能力吗?

发表
Yang YueYang Yue 提交
作者: Yang YueYang Yue, Zhiqi ChenZhiqi Chen, Rui LuRui Lu, Andrew ZhaoAndrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

摘要

可验证奖励强化学习(RLVR)最近在增强大型语言模型(LLM)的推理能力方面取得了显著成功,尤其是在数学和编程任务中。人们普遍认为,RLVR 使 LLM 能够持续自我改进,从而获得超越相应基础模型能力的新型推理能力。然而,在本研究中,我们通过测量具有较大 k 值的 pass@k 指标,重新审视了这一假设,以探索跨越广泛模型系列和基准的模型的推理能力边界。令人惊讶的是,RL 实际上并没有引发根本性的新推理模式。虽然 RL 训练的模型在较小的 k 值(例如,k=1)下优于其基础模型,但在较大的 k 值下,基础模型可以达到与其 RL 对应模型相当甚至更高的 pass@k 分数。RL 训练的模型生成的推理路径已经包含在基础模型的采样分布中,这表明 RL 训练的模型中表现出的大多数推理能力已经由基础模型获得。进一步的分析表明,RL 训练通过将模型的输出分布偏向于更可能产生奖励的路径来提高性能,从而更有效地采样正确的响应。但这也会导致比基础模型更窄的推理能力边界。在用 RLVR 训练的视觉推理任务中也观察到类似的结果。此外,我们发现蒸馏可以真正地将新的知识引入模型,这与 RLVR 不同。这些发现强调了 RLVR 在提升 LLM 推理能力方面的关键局限性,这要求我们从根本上重新思考 RL 训练在推理 LLM 中的影响,以及对更好范式的需求。项目页面:https://limit-of-RLVR.github.io
查看 arXiv 页面查看 PDF
强化学习真的能激励LLM在基础模型之上展现推理能力吗?

评论

Zhaocheng LiuZhaocheng Liu

令人印象深刻

Yang YueYang Yue
论文作者
论文提交者

谢谢!

yiyi

感谢您的论文!

在图 2 中,我注意到 qwen2.5-7b 在 AIME24 上 pass@1024 的性能优于 qwen2.5-14b。请您确认这是否是论文中的错误,或者它是否表明预训练期间也出现了类似的欠探索倾向?

提前感谢您的澄清!

Yang YueYang Yue
论文作者
论文提交者

你好 Zhongyi,感谢你的提问!

我们再次核对了 AIME24 的结果,确认论文中没有错误。有趣的是,其他研究也表明,Qwen2.5-7B 和 14B 在 AIME24 上的 pass@1(即平均性能)非常接近,这表明它们在这个基准测试上的整体性能非常相似。

值得注意的是,AIME24 只包含 30 道题。在我们的结果中,7B 模型在 pass@1024 时解决了 23 道题,而 14B 模型解决了 22 道题。考虑到数据集很小,即使一道题的差异也可能导致明显的波动,这使得 7B 模型有可能略微超过 14B 模型,这是一种由于数据有限而产生的统计波动。

希望这能有所澄清!

LutalicaLutalica

非常好的论文,尤其是关于 RL 训练模型和基线模型比较的部分。但我认为,蒸馏模型优于基线模型和 RL 训练模型的原因很大程度上依赖于蒸馏数据,而蒸馏数据有时不可避免地会引入一些基准的“泄漏”,因此需要更多的实验来确认 RL/蒸馏或它们的组合的上限。

Yang YueYang Yue
论文作者
论文提交者

感谢您周到的提醒!您说得完全正确——蒸馏不仅仅涉及从教师的回答中学习,还包括提示本身,这可能会无意中泄露基准数据。这是一个我们之前没有完全意识到的重要问题。

接下来,我们计划通过仅使用良好控制的提示来蒸馏基础模型,从而进行更干净的实验,以最大限度地减少任何潜在的基准泄露。再次感谢您指出这个问题——这对改进我们的方法非常有帮助!

Jordan ConraganJordan Conragan

我想知道随着模型规模和强化学习训练时间的增加,这些效果能保持多久。我从大多数开源强化学习训练中得到的普遍 "感觉" 倾向于 "我们如何才能在最短的时间内训练出尽可能小的模型,以获得最高的基准测试结果"。这非常有趣,并且具有实际应用(因为我们大多数人没有数千个 H100),但我感觉实现这一目标的最快方法是调整模型已知的格式,以便在单个输出中进行 k-shot 搜索(这就是你展示的,经验上,正在发生的事情,那非常酷,顺便说一句)。

但是,对于更大规模的模型,经过更长时间、更多数据的训练(例如 DeepSeek R1)又如何呢?DeepSeek A. 提到,用强化学习训练更大的模型与训练更小的模型有不同的动态(在他们的强化学习与蒸馏部分),并且 B. 训练 R1 和 R1-zero 的时间比任何开源模型都长得多。

我想表达的问题是(这可能最适合作为后续工作):强化学习 真的 只是为特定格式调整基础模型,还是它会通过足够的规模学习新的能力?

Yang YueYang Yue
论文作者
论文提交者

我非常感谢您的问题——我也很好奇,当我们扩大模型规模和训练时,这些效果是否会发生变化。 这就是我们目前正在研究 DeepSeek-V3 与 R1 的原因。

Yang YueYang Yue
论文作者
论文提交者
此评论已隐藏。
YUFA ZHOUYUFA ZHOU

非常棒的作品和美丽的插画!

Yang YueYang Yue
论文作者
论文提交者

谢谢!

Ritvik RastogiRitvik Rastogi

@Yang130

这是一项非常有洞察力的工作,尤其是关于“RL 主要通过将模型的输出分布向高奖励轨迹偏移来提升性能,这提高了采样效率,但缩小了推理多样性”这一观点。这一阐释非常有帮助。

关于您在 4.1 节中对 AIME24 数据集上基础模型和经 RL 训练的模型都能解决的问题所进行的分析,我有一个问题。既然这些问题基础模型已经能解决,那么推理模式必然已经存在于其分布中,这是否有点在意料之中呢?我想知道,如果分析数据集的一个随机子集——不局限于基础模型和 RL 模型都能解决的问题——是否可能显示出不同的行为,或者揭示出由 RL 真正引入的全新推理过程。很想听听您的看法!

wujinzhuwujinzhu

@Ritvik19 我认为可能存在一些误解,分析的重点不是两个模型都做对了哪些题目。AIME24 总共只有 30 道题目,所以分析查看了基础模型和经过强化学习训练的模型分别能够解决的题目的编号。结果发现,所有经过强化学习训练的模型解决的题目,基础模型也都解决了。

Ritvik RastogiRitvik Rastogi

明白了!这下清楚了!谢谢你的澄清。

这直接支持了你的观点,即强化学习主要优化的是高效采样,而不是解锁新的推理模式。

Ritvik RastogiRitvik Rastogi

@Yang130 您的工作非常有见地,尤其是关于“RL 提升性能主要通过将模型的输出分布向高奖励轨迹转移来实现,这提升了采样效率,但限制了推理多样性”这一论点,非常有启发性。这个澄清非常有帮助。

Yang YueYang Yue
论文作者
论文提交者

你好 Ritvik,

感谢你的关注!

事实上,在我们的困惑度分析中,我们不局限于两个模型都能解决的问题。正如你所建议的,我们分析了数据集的一个随机子集,包括无法解决的问题。

我们发现,可解决问题和不可解决问题之间的困惑度分布非常相似,这表明强化学习即使在更广泛的数据集中也没有引入根本性的新推理能力。

如果你有更多想法或问题,请告诉我。