CurES:从梯度分析到高效课程学习,用于推理大语言模型

发表
RubinSunRubinSun 提交
作者: Yongcheng Zeng, RubinSunZexu Sun, Bokai Ji, Erxue Min, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Haifeng Zhang, Xu Chen, Jun Wang

摘要

AI 生成总结
CurES 是一种基于强化学习的方法,通过优化提示选择和回滚分配来提高大型语言模型的训练效率,从而实现更快的收敛和降低计算开销。
课程学习在提高大型语言模型 (LLM) 在推理任务上的训练效率方面起着至关重要的作用。然而,现有方法往往未能充分考虑提示词难度的变化,或者依赖于简化的过滤机制,在狭窄的标准范围内选择提示词数据集,从而导致严重的计算浪费。在本研究中,我们从强化学习梯度优化的角度入手,对如何提高 LLM 的训练效率进行了系统和理论上的研究。我们确定了影响训练效率的两个关键因素:训练提示词的选择和不同提示词的 rollout(策略滚动)数量分配。我们的理论分析表明,提示词的采样分布决定了梯度下降的收敛速度,而 rollout 数量的分配则影响了整体梯度更新的一致性和稳定性。基于这些见解,我们提出了 CurES,一种高效的训练方法,它能加速收敛,并采用贝叶斯后验估计来最大限度地减少计算开销。实验表明,我们的 CurES 在 1.5B 和 7B 模型上的表现分别比 Group Relative Policy Optimization (GRPO) 高出 +3.30 和 +4.82 个点。此外,与 GRPO 等基线方法相比,CurES 的收敛速度更快。
查看 arXiv 页面查看 PDF

评论

RubinSunRubinSun
论文作者
论文提交者

本文提出了一种基于梯度分析的预算分配方法,用于强化学习在 LLM 推理中的应用。