VCRL: 用于大型语言模型的基于方差的课程强化学习

发表
JGCJGC 提交
作者: JGCGuochao Jiang, wenfeng fengWenfeng Feng, Guofeng Quan, Chuzhan HAOChuzhan Hao, yuewei zhangYuewei Zhang, Guohua Liu, Hao Wang

摘要

AI 生成总结
一个课程强化学习框架根据奖励方差动态调整训练样本难度,从而提高了 LLM 在数学推理任务上的性能。
基于策略的强化学习在改进LLMs的数学推理任务方面起着重要作用。然而,现有的基于rollout的强化学习方法(GRPO、DAPO、GSPO等)未能明确考虑LLMs对不同难度级别样本的学习能力,这与人类数学推理任务从易到难的认知过程相反。直观地,我们发现RLVR中rollout组奖励的方差在一定程度上反映了当前样本对LLMs的难度。过易或过难的样本方差较低,而中等难度的样本方差较高。基于此,我们提出了VCRL,一个课程强化学习框架,该框架根据群组奖励的方差动态控制训练样本的难度。在五个数学基准和两个模型上的实验揭示了VCRL相对于当前LLM RL基线的优势。
查看 arXiv 页面查看 PDF

评论

JGCJGC
论文作者
论文提交者

我们提出了 VCRL,一个课程强化学习框架,根据组奖励的方差动态控制训练样本的难度。