关于用于LLM推理的KL正则化策略梯度算法的设计

发表
Yifan ZhangYifan Zhang 提交
作者: Yifan ZhangYifan Zhang, Yifeng LiuYifeng Liu, Huizhuo Yuan, Yang Yuan, Quanquan Gu, Andrew C Yao

摘要

策略梯度算法已成功应用于增强大型语言模型(LLM)的推理能力。尽管在策略梯度算法中广泛使用 Kullback-Leibler (KL) 正则化以稳定训练,但系统探索如何在在线强化学习(RL)中估计和整合不同 KL 散度公式到替代损失函数中,是一个细致且系统化可探索的设计空间。在本文中,我们提出了正则化策略梯度(RPG),一个用于在在线 RL 设置中推导和分析 KL 正则化策略梯度方法的系统框架。我们针对由前向和反向 KL 散度正则化的目标,考虑了归一化和非归一化策略分布,推导了策略梯度和相应的替代损失函数。此外,我们还推导了完全可微的损失函数以及 REINFORCE 风格的梯度估计器,以适应不同的算法需求。我们使用这些方法对 LLM 推理的 RL 进行了大量实验,与 GRPO、REINFORCE++ 和 DAPO 等强基线相比,在训练稳定性和性能方面取得了改进或竞争性的结果。代码可在 https://github.com/complex-reasoning/RPG 获取。
查看 arXiv 页面查看 PDF
关于用于LLM推理的KL正则化策略梯度算法的设计

评论

Yifan ZhangYifan Zhang
论文作者
论文提交者

策略梯度算法已成功应用于增强大型语言模型 (LLM) 的推理能力。尽管 Kullback-Leibler (KL) 正则化在策略梯度算法中被广泛用于稳定训练,但如何系统地探索不同的 KL 散度公式并将其集成到在线强化学习 (RL) 的替代损失函数中,仍是一个微妙且值得系统探索的设计空间。在本文中,我们提出了正则化策略梯度 (RPG),这是一个用于在线 RL 设置中推导和分析 KL 正则化策略梯度方法的系统框架。我们推导了由前向和反向 KL 散度正则化的目标的策略梯度和相应的替代损失函数,同时考虑了归一化和非归一化策略分布。此外,我们还提供了完全可微分的损失函数以及 REINFORCE 式梯度估计器的推导,以适应不同的算法需求。我们使用这些方法在 LLM 推理的 RL 上进行了大量实验,与 GRPO、REINFORCE++ 和 DAPO 等强基线相比,在训练稳定性和性能方面显示出改进或具有竞争力的结果。代码可在以下链接获取:https://github.com/complex-reasoning/RPG