⏶67

Flow-GRPO：通过在线强化学习训练流匹配模型

05月08日发表

05月09日由 Yangguang Li 提交

作者: Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

摘要

我们提出了 Flow-GRPO，这是首个将在线强化学习（RL）集成到流匹配模型中的方法。我们的方法采用了两个关键策略：(1) ODE到SDE的转换，将确定性常微分方程（ODE）转换为一个等价的随机微分方程（SDE），该SDE在所有时间步长上与原始模型的边际分布相匹配，从而实现用于RL探索的统计采样；(2) 去噪减少策略，减少训练时的去噪步骤，同时保留原始的推理时间步数，在不降低性能的情况下显著提高了采样效率。经验表明，Flow-GRPO 在多个文本到图像任务中表现出色。对于复杂构图，经过RL调整的 SD3.5 能够生成几乎完美的物体数量、空间关系和细粒度属性，将 GenEval 准确率从 63% 提升到 95%。在视觉文本渲染方面，其准确率从 59% 提高到 92%，显著增强了文本生成能力。Flow-GRPO 在对齐人类偏好方面也取得了显著提升。值得注意的是，几乎没有发生奖励作弊（reward hacking）现象，这意味着奖励的提高并未以牺牲图像质量或多样性为代价，这两者在我们的实验中都保持稳定。

查看 arXiv 页面查看 PDF

Jie Liu

论文作者

代码：https://github.com/yifan123/flow_grpo

Yangguang Li

论文作者

论文提交者

此评论已隐藏。