⏶67
Flow-GRPO:通过在线强化学习训练流匹配模型
发表
由
Yangguang Li 提交
作者:
Jie Liu,
Gongye Liu, Jiajun Liang,
Yangguang Li,
Jiaheng Liu,
Xintao Wang, Pengfei Wan,
Di Zhang, Wanli Ouyang



摘要
我们提出了 Flow-GRPO,这是首个将在线强化学习(RL)集成到流匹配模型中的方法。我们的方法采用了两个关键策略:(1) ODE到SDE的转换,将确定性常微分方程(ODE)转换为一个等价的随机微分方程(SDE),该SDE在所有时间步长上与原始模型的边际分布相匹配,从而实现用于RL探索的统计采样;(2) 去噪减少策略,减少训练时的去噪步骤,同时保留原始的推理时间步数,在不降低性能的情况下显著提高了采样效率。经验表明,Flow-GRPO 在多个文本到图像任务中表现出色。对于复杂构图,经过RL调整的 SD3.5 能够生成几乎完美的物体数量、空间关系和细粒度属性,将 GenEval 准确率从 63% 提升到 95%。在视觉文本渲染方面,其准确率从 59% 提高到 92%,显著增强了文本生成能力。Flow-GRPO 在对齐人类偏好方面也取得了显著提升。值得注意的是,几乎没有发生奖励作弊(reward hacking)现象,这意味着奖励的提高并未以牺牲图像质量或多样性为代价,这两者在我们的实验中都保持稳定。
代码:https://github.com/yifan123/flow_grpo