几何平均策略优化

发表
Junpeng LiuJunpeng Liu 提交
作者: Yuzhong Zhao, Yue Liu, Junpeng LiuJunpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei

摘要

最近的进展,例如组相对策略优化(GRPO),通过优化token级别奖励的算术平均值增强了大型语言模型的推理能力。然而,GRPO在处理具有异常重要性加权奖励的token时,会遇到不稳定的策略更新,这在训练期间表现为极端的采样重要性比率,即当前策略和旧策略分配给token的采样概率之间的比率。在这项工作中,我们提出了几何平均策略优化(GMPO),它是GRPO的一个稳定变体。GMPO不是优化算术平均值,而是最大化token级别奖励的几何平均值,这本质上对异常值不那么敏感,并保持更稳定的重要性采样比率范围。此外,我们提供了全面的理论和实验分析来证明GMPO的设计和稳定性优势。除了提高稳定性外,GMPO-7B在多个数学基准上比GRPO平均提高了4.1%,在多模态推理基准上提高了1.4%,包括AIME24、AMC、MATH500、OlympiadBench、Minerva和Geometry3K。代码可在https://github.com/callsys/GMPO 获取。
查看 arXiv 页面查看 PDF

评论

Junpeng LiuJunpeng Liu
论文作者
论文提交者

介绍几何平均策略优化(GMPO),它是GRPO的一个稳定变体。GMPO最大化令牌级奖励的几何平均值,这本身对异常值不那么敏感,并能保持更稳定的重要性采样比范围。此外,我们进行了全面的理论和实验分析,以证明GMPO设计和稳定性的优势。

代码: https://github.com/callsys/GMPO