⏶85
Pref-GRPO:基于成对偏好奖励的GRPO,用于稳定的文本到图像强化学习
发表
由
SII-Yibin Wang 提交

作者:
Yibin Wang, Zhimin Li,
Yuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang


摘要
最近的进展突显了基于 GRPO 的强化学习方法和基准测试在增强文本到图像 (T2I) 生成方面的重要性。然而,目前使用点状奖励模型 (RM) 对生成图像进行评分的方法容易受到奖励攻击。我们发现,当图像之间的最小分数差异在归一化后被放大时,就会发生这种情况,从而产生虚假的优势,促使模型过度优化微不足道的收益,最终导致图像生成过程不稳定。为了解决这个问题,我们提出了 Pref-GRPO,一种基于成对偏好的奖励的 GRPO 方法,它将优化目标从分数最大化转移到偏好拟合,确保了更稳定的训练。在 Pref-GRPO 中,图像在每个组内使用偏好 RM 进行成对比较,并将获胜率用作奖励信号。大量实验表明,PREF-GRPO 能够区分细微的图像质量差异,提供更稳定的优势并减轻奖励攻击。此外,现有的 T2I 基准测试受到粗粒度评估标准的限制,阻碍了全面的模型评估。为了解决这个问题,我们引入了 UniGenBench,这是一个统一的 T2I 基准测试,包含 600 个跨 5 个主要主题和 20 个子主题的提示。它通过 10 个主要标准和 27 个子标准来评估语义一致性,并利用 MLLM 进行基准测试的构建和评估。我们的基准测试揭示了开源和闭源 T2I 模型的优势和劣势,并验证了 Pref-GRPO 的有效性。
🌟项目页面:https://codegoat24.github.io/UnifiedReward/Pref-GRPO
📖论文:https://arxiv.org/pdf/2508.20751
💡Pref-GRPO Github:https://github.com/CodeGoat24/Pref-GRPO
💥UniGenBench Github:https://github.com/CodeGoat24/UniGenBench
🤗排行榜:https://huggingface.co/spaces/CodeGoat24/UniGenBench_Leaderboard
🤗模型:https://huggingface.co/CodeGoat24/FLUX.1-dev-PrefGRPO