⏶5
G^2RPO:用于流模型中精确奖励的粒度GRPO
发表
由
Jiaqi Wang 提交
作者:
Yujie Zhou, Pengyang Ling, Jiazi Bu, Yibin Wang,
Yuhang Zang, Jiaqi Wang, Li Niu, Guangtao Zhai

摘要
AI 生成总结
一种新颖的 Granular-GRPO 框架通过改进奖励评估和减少去噪中的偏差,增强了扩散和流模型中的强化学习。将在线强化学习 (RL) 集成到扩散模型和流模型中,最近已成为使生成模型与人类偏好对齐的有前途的方法。在去噪过程中采用通过随机微分方程 (SDE) 进行的随机采样,以生成用于 RL 探索的多样化去噪方向。虽然现有方法可以有效地探索潜在的高价值样本,但由于奖励信号稀疏且狭窄,它们在偏好对齐方面表现不佳。为了应对这些挑战,我们提出了一种新颖的 Granular-GRPO (G^2RPO) 框架,该框架在流模型的强化学习中实现了对采样方向的精确和全面的奖励评估。具体来说,我们引入了一种单一随机采样策略,以支持分步随机探索,同时强制执行奖励与注入噪声之间的高度相关性,从而为每个 SDE 扰动提供忠实的奖励。同时,为了消除固定粒度去噪固有的偏差,我们引入了一个多粒度优势集成模块,该模块聚合了在多个扩散尺度上计算的优势,从而对采样方向进行更全面、更鲁棒的评估。在各种奖励模型上进行的实验,包括域内和域外评估,表明我们的 G^2RPO 明显优于现有的基于流的 GRPO 基线,突出了其有效性和鲁棒性。
代码:https://github.com/bcmi/Granular-GRPO
模型:https://huggingface.co/yujieouo/G2RPO