CPGD: 迈向用于语言模型的稳定基于规则强化学习

发表
kkkaikkkai 提交
作者: kkkaiZongkai Liu, fanqing mengFanqing Meng, Lingxiao DuLingxiao Du, Zhixiang ZhouZhixiang Zhou, Chao Yu, Wenqi ShaoWenqi Shao, Qiaosheng ZHANGQiaosheng Zhang

摘要

基于规则的强化学习 (RL) 的最新进展显著提高了语言模型 (LMs) 基于规则奖励的推理能力。然而,现有的 RL 方法(如 GRPO、REINFORCE++ 和 RLOO)常常面临训练不稳定问题,其中大的策略更新和不恰当的裁剪可能导致训练崩溃。为了解决这个问题,我们提出了带有策略漂移的裁剪策略梯度优化 (CPGD),这是一种旨在稳定 LM 中策略学习的新算法。CPGD 引入了基于 KL 散度的策略漂移约束来动态正则化策略更新,并利用对比例对数进行裁剪的机制来防止过度的策略更新。我们为 CPGD 提供了理论依据,并通过实证分析证明它减轻了先前方法中观察到的不稳定性。此外,我们表明 CPGD 在保持训练稳定性的同时显著提高了性能。我们的实现平衡了理论严谨性和实用性,为 LM 后训练中的 RL 提供了一种鲁棒的替代方案。我们将在 https://github.com/ModalMinds/MM-EUREKA 发布代码。
查看 arXiv 页面查看 PDF

评论

kkkaikkkai
论文作者
论文提交者

我们提出了一种新颖的基于规则的强化学习(RL)算法,用于解决现有 RL 方法中的训练不稳定问题。

论文:https://arxiv.org/abs/2505.12504

代码:https://github.com/ModalMinds/MM-EUREKA