⏶90
使用一个训练样本对大型语言模型进行推理的强化学习
发表
由
AK 提交

作者:
Yiping Wang,
Qing Yang,
Zhiyuan Zeng,
Liliang Ren, Lucas Liu,
Baolin Peng, Hao Cheng,
Xuehai He,
Kuan Wang,
Jianfeng Gao,
Weizhu Chen,
Shuohang Wang, Simon Shaolei Du,
Yelong Shen

摘要
我们表明,使用一个训练示例的可验证奖励强化学习(1-shot RLVR)能有效激励大型语言模型(LLM)的数学推理能力。将 RLVR 应用于基础模型 Qwen2.5-Math-1.5B,我们发现单个示例就能将模型在 MATH500 上的性能从 36.0% 提升到 73.6%,并将六个常见数学推理基准测试的平均性能从 17.6% 提高到 35.7%。这一结果与使用包含上述示例的 1.2k DeepScaleR 子集所获得的性能相当(MATH500:73.6%,平均:35.9%)。在各种模型(Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B)、RL 算法(GRPO 和 PPO)以及不同的数学示例(其中许多在用作单个训练示例时,能将 MATH500 的性能提高约 30% 或更多)上,也观察到类似的显著改进。此外,我们在 1-shot RLVR 过程中发现了一些有趣的现象,包括跨领域泛化、自我反思频率增加,以及即使训练准确率饱和后测试性能仍持续提高,我们将这种现象称为饱和后泛化。此外,我们验证了 1-shot RLVR 的有效性主要源于策略梯度损失,这将其与“顿悟”(grokking)现象区分开来。我们还展示了在 1-shot RLVR 训练中促进探索(例如,通过添加具有适当系数的熵损失)的关键作用。另外值得一提的是,我们观察到,仅应用熵损失而没有任何结果奖励,也能显著提高 Qwen2.5-Math-1.5B 在 MATH500 上的性能,提升了 27.4%。这些发现可以启发未来在 RLVR 数据效率方面的工作,并鼓励重新审视 RLVR 的最新进展及其底层机制。我们的代码、模型和数据已在 https://github.com/ypwang61/One-Shot-RLVR 开源。
评论

论文提交者

论文作者
您好,感谢您对我们工作的关注!是的,我们仍然需要进行一些数据筛选才能获得更好的结果,尽管相对随机的样本在1-shot RLVR中仍然能取得很大的改进(与最佳示例相比,MATH500上可能下降5-10%,平均下降2-3%)。我们观察到的一个好现象是,由Qwen2.5-Math-1.5B的历史方差得分选出的pi_1可以同时适用于Qwe2.5-Math-7B、Llama-3.2-3B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B,所以也许我们可以使用一些代理模型进行筛选。
总之,我们认为目前的数据筛选显然不是最优的,希望未来的工作能够为RLVR找到更好的数据筛选算法!