MixGRPO:采用混合ODE-SDE解锁基于流的GRPO效率

发表
lijunzhelijunzhe 提交
作者: lijunzheJunzhe Li, Yutao Cui, Tao Huang, Yinping Ma, Chun Fan, Miles Yang, Zhao Zhong

摘要

尽管GRPO显著增强了图像生成人类偏好对齐中的流匹配模型,但像FlowGRPO这样的方法仍存在效率低下的问题,因为它们需要对马尔可夫决策过程(MDP)指定的所有去噪步骤进行采样和优化。在本文中,我们提出了MixGRPO,一个新颖的框架,它通过整合随机微分方程(SDE)和常微分方程(ODE),利用了混合采样策略的灵活性。这简化了MDP内部的优化过程,从而提高了效率并提升了性能。具体来说,MixGRPO引入了一种滑动窗口机制,仅在窗口内使用SDE采样和GRPO引导的优化,而在窗口外则应用ODE采样。这种设计将采样随机性限制在窗口内的时间步中,从而减少了优化开销,并允许更集中的梯度更新以加速收敛。此外,由于滑动窗口之外的时间步不参与优化,因此支持使用高阶求解器进行采样。因此,我们提出了一种更快的变体,命名为MixGRPO-Flash,它在实现可比性能的同时进一步提高了训练效率。MixGRPO在人类偏好对齐的多个维度上展现出显著增益,在有效性和效率方面均优于DanceGRPO,训练时间降低了近50%。值得注意的是,MixGRPO-Flash进一步将训练时间减少了71%。代码和模型可在 https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO} 获取。
查看 arXiv 页面查看 PDF

评论

lijunzhelijunzhe
论文作者
论文提交者

欢迎大家自由讨论Flow-GRPO、DanceGRPO和MixGRPO👏

👀我们将继续更新与Flow-GRPO、DPO及其他后训练技术的比较。

能否请您关注MixGRPO并考虑投上一票?🙋‍♂️

image1.png

image3.png

image4.png

method1.png