⏶116
VCRL: 用于大型语言模型的基于方差的课程强化学习
发表
由
JGC 提交
作者:
Guochao Jiang,
Wenfeng Feng, Guofeng Quan,
Chuzhan Hao,
Yuewei Zhang, Guohua Liu, Hao Wang
摘要
AI 生成总结
一个课程强化学习框架根据奖励方差动态调整训练样本难度,从而提高了 LLM 在数学推理任务上的性能。基于策略的强化学习在改进LLMs的数学推理任务方面起着重要作用。然而,现有的基于rollout的强化学习方法(GRPO、DAPO、GSPO等)未能明确考虑LLMs对不同难度级别样本的学习能力,这与人类数学推理任务从易到难的认知过程相反。直观地,我们发现RLVR中rollout组奖励的方差在一定程度上反映了当前样本对LLMs的难度。过易或过难的样本方差较低,而中等难度的样本方差较高。基于此,我们提出了VCRL,一个课程强化学习框架,该框架根据群组奖励的方差动态控制训练样本的难度。在五个数学基准和两个模型上的实验揭示了VCRL相对于当前LLM RL基线的优势。
我们提出了 VCRL,一个课程强化学习框架,根据组奖励的方差动态控制训练样本的难度。