Group-Relative REINFORCE实际上是一个离线策略算法:揭示GRPO及其同类的一些神话

发表
Yanxi ChenYanxi Chen 提交
作者: Chaorui Yao, Yanxi ChenYanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding

摘要

AI 生成总结
对大型语言模型的离策略强化学习进行了探索,通过对群体相对 REINFORCE 的新推导,为重要性采样、剪枝和数据加权策略提供了见解。
针对大型语言模型(LLM)的离策略强化学习(RL)正吸引越来越多的关注,这得益于实际应用中的实际约束、LLM-RL 基础设施的复杂性以及对 RL 方法论创新的需求。虽然经典的 REINFORCE 及其现代变体(如组相对策略优化(GRPO))通常被视为同策略算法,对离策略性的容忍度有限,但我们在本文中提出了对不假设特定训练数据分布的组相对 REINFORCE 的第一原理推导,表明它具有原生的离策略解释。这种观点为将 REINFORCE 适应离策略设置提供了两个通用原则:正则化策略更新和主动塑造数据分布。我们的分析揭示了关于重要性采样和 GRPO 中截断作用的一些神话,统一并重新解释了两个近期算法——在线策略镜面下降(OPMD)和不对称 REINFORCE(AsymRE)——作为 REINFORCE 损失的正则化形式,并为看似启发式的数据加权策略提供了理论依据。我们的发现带来了经过大量实证研究验证的可操作见解,并为 LLM 的离策略 RL 中的原则性算法设计开辟了新的机会。本文的源代码可在 https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k 获得。
查看 arXiv 页面查看 PDF

评论

Yanxi ChenYanxi Chen
论文作者
论文提交者

我们揭示了组相对 REINFORCE 的原生离策略解释,并阐述了其各种含义,例如,揭示了重要性采样和 GRPO 中裁剪作用的迷思,将两个最近的算法重新解释为 REINFORCE 损失的正则化形式,并为数据加权启发式提供了原则性依据。

代码:https://github.com/modelscope/Trinity-RFT/tree/main/examples/rec_gsm8k