角度不会骗人:通过模型自身信号解锁高效强化学习

发表
WangWang 提交
作者: Qinsi Wang, Jinghan Ke, Hancheng YeHancheng Ye, Yueqian LinYueqian Lin, Yuzhe FuYuzhe Fu, jianyi.zhangJianyi Zhang, Kurt KeutzerKurt Keutzer, Chenfeng XuChenfeng Xu, Yiran Chen

摘要

当前大型语言模型(LLM)的强化微调(RFT)范式存在样本效率低下问题,这归因于在均匀数据采样下相同查询的冗余暴露。尽管以往工作探索了通过启发式难度指标进行的课程学习,但这些策略忽略了模型自身生成的内在学习信号,从而导致次优的训练方案。在本文中,我们确定了一种模型固有的信号,称为“角度集中度”(angle concentration),它能有效反映LLM从特定数据中学习的能力。我们从理论和经验上证明了词元隐藏状态向量的角度分布与所得梯度之间的相关性,揭示了模型对表现出更高角度集中度的数据的学习偏好。受此发现的启发,我们提出了GAIN-RL,一个梯度驱动的、角度信息引导的强化学习框架。通过利用模型内在的角度集中度信号,GAIN-RL在每个训练周期(epoch)动态选择训练数据,确保持续有效的梯度更新,从而显著提高整体训练效率。经验评估表明,GAIN-RL (GRPO)在跨越不同数学和编码任务以及不同模型规模的训练效率上实现了超过2.5倍的加速。此外,GAIN-RL (GRPO)的高效采样实现了数据高效训练,与使用全部训练数据的普通GRPO相比,仅用一半原始数据就取得了更好的性能。代码已发布于 https://github.com/wangqinsi1/GAINRL/tree/main
查看 arXiv 页面查看 PDF

评论

WangWang
论文提交者

本文中,我们展示了隐状态向量的角度集中度是衡量大型语言模型(LLM)能从样本中学习多少的内在指标,并与梯度强度紧密相关。利用这一信号,GAIN‑RL 在每个 epoch 动态选择最具信息量的样本,从而保持梯度更新的有效性,并大幅削减了困扰标准 RFT 的样本浪费。在各种数学和编码基准测试中——以及在多种模型规模下——GAIN‑RL 实现了超过 2.5 倍的训练速度提升,并仅用原始数据的一半就超越了普通的 GRPO。