使用一个训练样本对大型语言模型进行推理的强化学习

发表
AKAK 提交
作者: Yiping WangYiping Wang, Qing YangQing Yang, Zhiyuan ZengZhiyuan Zeng, Liliang RenLiliang Ren, Lucas Liu, Baolin PengBaolin Peng, Hao Cheng, Xuehai HeXuehai He, Kuan WangKuan Wang, Jianfeng GaoJianfeng Gao, Weizhu ChenWeizhu Chen, WangShuohang Wang, Simon Shaolei Du, Yelong ShenYelong Shen

摘要

我们表明,使用一个训练示例的可验证奖励强化学习(1-shot RLVR)能有效激励大型语言模型(LLM)的数学推理能力。将 RLVR 应用于基础模型 Qwen2.5-Math-1.5B,我们发现单个示例就能将模型在 MATH500 上的性能从 36.0% 提升到 73.6%,并将六个常见数学推理基准测试的平均性能从 17.6% 提高到 35.7%。这一结果与使用包含上述示例的 1.2k DeepScaleR 子集所获得的性能相当(MATH500:73.6%,平均:35.9%)。在各种模型(Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B)、RL 算法(GRPO 和 PPO)以及不同的数学示例(其中许多在用作单个训练示例时,能将 MATH500 的性能提高约 30% 或更多)上,也观察到类似的显著改进。此外,我们在 1-shot RLVR 过程中发现了一些有趣的现象,包括跨领域泛化、自我反思频率增加,以及即使训练准确率饱和后测试性能仍持续提高,我们将这种现象称为饱和后泛化。此外,我们验证了 1-shot RLVR 的有效性主要源于策略梯度损失,这将其与“顿悟”(grokking)现象区分开来。我们还展示了在 1-shot RLVR 训练中促进探索(例如,通过添加具有适当系数的熵损失)的关键作用。另外值得一提的是,我们观察到,仅应用熵损失而没有任何结果奖励,也能显著提高 Qwen2.5-Math-1.5B 在 MATH500 上的性能,提升了 27.4%。这些发现可以启发未来在 RLVR 数据效率方面的工作,并鼓励重新审视 RLVR 的最新进展及其底层机制。我们的代码、模型和数据已在 https://github.com/ypwang61/One-Shot-RLVR 开源。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-04-29 at 10.16.13 PM.png

LutalicaLutalica

我想知道这是否意味着性能在很大程度上依赖于数据选择。但如果选择是基于在完整数据集上进行训练,那么在1-shot训练之前仍然成本很高。有没有一种更简单但有效的方式来选择样本?

Yiping WangYiping Wang
论文作者

您好,感谢您对我们工作的关注!是的,我们仍然需要进行一些数据筛选才能获得更好的结果,尽管相对随机的样本在1-shot RLVR中仍然能取得很大的改进(与最佳示例相比,MATH500上可能下降5-10%,平均下降2-3%)。我们观察到的一个好现象是,由Qwen2.5-Math-1.5B的历史方差得分选出的pi_1可以同时适用于Qwe2.5-Math-7B、Llama-3.2-3B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B,所以也许我们可以使用一些代理模型进行筛选。

总之,我们认为目前的数据筛选显然不是最优的,希望未来的工作能够为RLVR找到更好的数据筛选算法!

Yiping WangYiping Wang
论文作者

感谢分享我们的工作!

KonovalenkoKonovalenko
此评论已隐藏。
Ritvik RastogiRitvik Rastogi

令人着迷的论文 @ypwang61 !! 我有点好奇的是:您是否研究过为什么使用 pi1 + pi13 进行训练会比使用 pi1 + pi2 产生更好的结果?这更多是因为示例之间的多样性,还是因为互补的推理模式?我很想更深入地了解。

Yiping WangYiping Wang
论文作者

感谢您的关注!是的,这是个很好的问题,在我看来,结合表现更好的例子会更好,例如,您可以看到在 1-shot RLVR 性能中,pi1 \approx pi13 > pi2,因此结合它们可能会带来更好的性能。类似地,pi1+...+pi_16 比随机选择的 16 个数据表现更好。我认为多样性应该有些重要,但有很多值得尝试的消融研究,只是所有这些都需要资源,所以我们还没有尝试。总的来说,我认为未来的工作应该有更好的数据选择方法。

Ritvik RastogiRitvik Rastogi

感谢你的解释!

我特别有兴趣探索用于 1-shot 或 few-shot RLVR 的数据选择策略。

话虽如此,我意识到 Historical Variance Score 是资源密集型的,因为它们需要对整个数据集进行多轮训练。

考虑到这一点,你如何看待 1-shot RLVR 明显的数据效率与识别那些有影响力的示例所需的计算开销之间的权衡?

如果你对这方面的合作或社区贡献持开放态度,我很乐意进行实验或帮助复现其中一些消融研究。