强化学习真的能激励LLM在基础模型之上展现推理能力吗?


摘要

评论

你好 Zhongyi,感谢你的提问!
我们再次核对了 AIME24 的结果,确认论文中没有错误。有趣的是,其他研究也表明,Qwen2.5-7B 和 14B 在 AIME24 上的 pass@1(即平均性能)非常接近,这表明它们在这个基准测试上的整体性能非常相似。
值得注意的是,AIME24 只包含 30 道题。在我们的结果中,7B 模型在 pass@1024 时解决了 23 道题,而 14B 模型解决了 22 道题。考虑到数据集很小,即使一道题的差异也可能导致明显的波动,这使得 7B 模型有可能略微超过 14B 模型,这是一种由于数据有限而产生的统计波动。
希望这能有所澄清!
我想知道随着模型规模和强化学习训练时间的增加,这些效果能保持多久。我从大多数开源强化学习训练中得到的普遍 "感觉" 倾向于 "我们如何才能在最短的时间内训练出尽可能小的模型,以获得最高的基准测试结果"。这非常有趣,并且具有实际应用(因为我们大多数人没有数千个 H100),但我感觉实现这一目标的最快方法是调整模型已知的格式,以便在单个输出中进行 k-shot 搜索(这就是你展示的,经验上,正在发生的事情,那非常酷,顺便说一句)。
但是,对于更大规模的模型,经过更长时间、更多数据的训练(例如 DeepSeek R1)又如何呢?DeepSeek A. 提到,用强化学习训练更大的模型与训练更小的模型有不同的动态(在他们的强化学习与蒸馏部分),并且 B. 训练 R1 和 R1-zero 的时间比任何开源模型都长得多。
我想表达的问题是(这可能最适合作为后续工作):强化学习 真的 只是为特定格式调整基础模型,还是它会通过足够的规模学习新的能力?

@Yang130
这是一项非常有洞察力的工作,尤其是关于“RL 主要通过将模型的输出分布向高奖励轨迹偏移来提升性能,这提高了采样效率,但缩小了推理多样性”这一观点。这一阐释非常有帮助。
关于您在 4.1 节中对 AIME24 数据集上基础模型和经 RL 训练的模型都能解决的问题所进行的分析,我有一个问题。既然这些问题基础模型已经能解决,那么推理模式必然已经存在于其分布中,这是否有点在意料之中呢?我想知道,如果分析数据集的一个随机子集——不局限于基础模型和 RL 模型都能解决的问题——是否可能显示出不同的行为,或者揭示出由 RL 真正引入的全新推理过程。很想听听您的看法!
令人印象深刻