使用大型语言模型稳定强化学习:公式与实践

发表
Bowen YuBowen Yu 提交
作者: Chujie ZhengChujie Zheng, Kai Dang, Bowen Yu, Mingze Li, Huiqiang JiangHuiqiang Jiang, Junrong Lin, Yuqiong Liu, An YangAn Yang, Jingren Zhou, Junyang Lin

摘要

AI 生成总结
该论文为使用 token 级目标优化强化学习中的序列级奖励提供了理论基础,强调了重要性采样校正、裁剪和路由重放等技术对于稳定训练的重要性,尤其是在大型语言模型中。
本文提出了一种新的大型语言模型强化学习(RL)公式,解释了为什么以及在什么条件下可以通过策略梯度方法(如 REINFORCE)中的替代令牌级目标优化真正的序列级奖励。具体而言,通过一阶近似,我们表明只有当训练-推理差异和策略陈旧度都最小化时,这种替代方案才变得越来越有效。这一见解为稳定 RL 训练中几种广泛采用的关键技术提供了原则性解释,包括重要性采样校正、剪裁,尤其是用于混合专家(MoE)模型的路由重放。通过对一个 30B MoE 模型进行大量实验,总计数十万 GPU 小时,我们表明,对于在线训练,带有重要性采样校正的基本策略梯度算法实现了最高的训练稳定性。当引入离线更新以加速收敛时,结合剪裁和路由重放对于减轻由策略陈旧度引起的不稳定性至关重要。值得注意的是,一旦训练稳定下来,无论冷启动初始化如何,长时间的优化始终能产生可比的最终性能。我们希望这些共享的见解和开发的稳定 RL 训练方法能促进未来的研究。
查看 arXiv 页面查看 PDF
使用大型语言模型稳定强化学习:公式与实践

评论

Bowen YuBowen Yu
论文提交者
  1. 从“一阶近似”的简单直观角度,我们阐述并解释了使用token级别目标优化序列级别奖励的原理,并强调这种近似的有效性需要将“训练-推理差距”和“策略陈旧性”降至最低。

  2. 我们的公式提供了一个原则性的解释:重要性采样(IS)校正、裁剪和路由重放等稳定技术,其根本目的都是为了维持这种一阶近似的有效性。

  3. 我们使用一个30B MoE模型进行了大量实验(超过00,000 GPU小时,采用FP8推理和BF16训练),这些实验有力地验证了上述预测,并帮助我们确定了稳定RL训练的有效方法。特别是,我们证明了只要训练在长期内保持稳定,不同的冷启动初始化最终会收敛到相似的性能水平。我们坚信稳定性是强化学习扩展的关键!