Pref-GRPO:基于成对偏好奖励的GRPO,用于稳定的文本到图像强化学习

发表
SII-Yibin WangSII-Yibin Wang 提交
作者: SII-Yibin WangYibin Wang, Zhimin Li, Yuhang ZangYuhang Zang, Yujie Zhou, Jiazi Bu, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

摘要

最近的进展突显了基于 GRPO强化学习方法和基准测试在增强文本到图像 (T2I) 生成方面的重要性。然而,目前使用点状奖励模型 (RM) 对生成图像进行评分的方法容易受到奖励攻击。我们发现,当图像之间的最小分数差异在归一化后被放大时,就会发生这种情况,从而产生虚假的优势,促使模型过度优化微不足道的收益,最终导致图像生成过程不稳定。为了解决这个问题,我们提出了 Pref-GRPO,一种基于成对偏好的奖励的 GRPO 方法,它将优化目标从分数最大化转移到偏好拟合,确保了更稳定的训练。在 Pref-GRPO 中,图像在每个组内使用偏好 RM 进行成对比较,并将获胜率用作奖励信号。大量实验表明,PREF-GRPO 能够区分细微的图像质量差异,提供更稳定的优势并减轻奖励攻击。此外,现有的 T2I 基准测试受到粗粒度评估标准的限制,阻碍了全面的模型评估。为了解决这个问题,我们引入了 UniGenBench,这是一个统一的 T2I 基准测试,包含 600 个跨 5 个主要主题和 20 个子主题的提示。它通过 10 个主要标准和 27 个子标准来评估语义一致性,并利用 MLLM 进行基准测试的构建和评估。我们的基准测试揭示了开源和闭源 T2I 模型的优势和劣势,并验证了 Pref-GRPO 的有效性。
查看 arXiv 页面查看 PDF

评论

SII-Yibin WangSII-Yibin Wang
论文作者
论文提交者

unigenbench_teaser.png

SII-Yibin WangSII-Yibin Wang
论文作者
论文提交者

pref_grpo_pipeline.png