⏶116

VCRL: 用于大型语言模型的基于方差的课程强化学习

09月24日发表

09月26日由 JGC 提交

作者: Guochao Jiang, Wenfeng Feng, Guofeng Quan, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

摘要

AI 生成总结

一个课程强化学习框架根据奖励方差动态调整训练样本难度，从而提高了 LLM 在数学推理任务上的性能。

基于策略的强化学习在改进LLMs的数学推理任务方面起着重要作用。然而，现有的基于rollout的强化学习方法（GRPO、DAPO、GSPO等）未能明确考虑LLMs对不同难度级别样本的学习能力，这与人类数学推理任务从易到难的认知过程相反。直观地，我们发现RLVR中rollout组奖励的方差在一定程度上反映了当前样本对LLMs的难度。过易或过难的样本方差较低，而中等难度的样本方差较高。基于此，我们提出了VCRL，一个课程强化学习框架，该框架根据群组奖励的方差动态控制训练样本的难度。在五个数学基准和两个模型上的实验揭示了VCRL相对于当前LLM RL基线的优势。

查看 arXiv 页面查看 PDF

JGC

论文作者

论文提交者

我们提出了 VCRL，一个课程强化学习框架，根据组奖励的方差动态控制训练样本的难度。

VCRL: 用于大型语言模型的基于方差的课程强化学习

摘要

评论