Flow-GRPO:通过在线强化学习训练流匹配模型

发表
Yangguang LiYangguang Li 提交
作者: Jie LiuJie Liu, Gongye LiuGongye Liu, Jiajun Liang, Yangguang LiYangguang Li, Jiaheng LiuJiaheng Liu, Xintao WangXintao Wang, Pengfei Wan, Di ZhangDi Zhang, Wanli Ouyang

摘要

我们提出了 Flow-GRPO,这是首个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法采用了两个关键策略:(1) ODE到SDE的转换,将确定性常微分方程(ODE)转换为一个等价的随机微分方程(SDE),该SDE在所有时间步长上与原始模型的边际分布相匹配,从而实现用于RL探索的统计采样;(2) 去噪减少策略,减少训练时的去噪步骤,同时保留原始的推理时间步数,在不降低性能的情况下显著提高了采样效率。经验表明,Flow-GRPO 在多个文本到图像任务中表现出色。对于复杂构图,经过RL调整的 SD3.5 能够生成几乎完美的物体数量、空间关系和细粒度属性,将 GenEval 准确率从 63% 提升到 95%。在视觉文本渲染方面,其准确率从 59% 提高到 92%,显著增强了文本生成能力。Flow-GRPO 在对齐人类偏好方面也取得了显著提升。值得注意的是,几乎没有发生奖励作弊(reward hacking)现象,这意味着奖励的提高并未以牺牲图像质量或多样性为代价,这两者在我们的实验中都保持稳定。
查看 arXiv 页面查看 PDF

评论

Jie LiuJie Liu
论文作者

代码:https://github.com/yifan123/flow_grpo

Yangguang LiYangguang Li
论文作者
论文提交者
此评论已隐藏。