⏶29
DanceGRPO:在视觉生成中释放 GRPO 的力量
发表
由
wujie10558@gmail.com 提交
作者:
Zeyue Xue,
Jie Wu, Yu Gao, Fangyuan Kong,
Lingting Zhu,
Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang,
Ping Luo
摘要
生成模型(尤其是扩散模型和整流流)的最新突破彻底改变了视觉内容创作,但使模型输出与人类偏好对齐仍然是一个关键挑战。现有的基于强化学习(RL)的视觉生成方法面临关键限制:与现代基于常微分方程(ODE)的采样范式不兼容、大规模训练不稳定以及缺乏视频生成验证。本文介绍了 DanceGRPO,这是第一个将群组相对策略优化(GRPO)应用于视觉生成范式的统一框架,在一个统一的 RL 算法下,涵盖了两种生成范式(扩散模型和整流流)、三种任务(文本到图像、文本到视频、图像到视频)、四种基础模型(Stable Diffusion、HunyuanVideo、FLUX、SkyReel-I2V)和五种奖励模型(图像/视频美学、文本-图像对齐、视频运动质量和二元奖励)。据我们所知,DanceGRPO 是第一个基于 RL 的统一框架,能够无缝适应各种生成范式、任务、基础模型和奖励模型。DanceGRPO 展示了持续且显著的改进,在 HPS-v2.1、CLIP Score、VideoAlign 和 GenEval 等基准测试中,性能超越基线高达 181%。值得注意的是,DanceGRPO 不仅可以稳定复杂视频生成的策略优化,还能使生成策略更好地捕捉去噪轨迹,以实现 Best-of-N 推理扩展,并从稀疏的二元反馈中学习。我们的结果表明,DanceGRPO 是一个强大且通用的解决方案,可用于扩展视觉生成中的人类反馈强化学习(RLHF)任务,为协调强化学习和视觉合成提供了新的见解。代码将会发布。
本文介绍了 DanceGRPO,这是第一个将组相对策略优化(Group Relative Policy Optimization, GRPO)应用于视觉生成范式的统一框架,将一个统一的强化学习(RL)算法应用于两种生成范式(扩散模型和修正流)、三种任务(文本到图像、文本到视频、图像到视频)、四种基础模型(Stable Diffusion、HunyuanVideo、FLUX、SkyReel-I2V)以及五种奖励模型(图像/视频美学、文本-图像对齐、视频运动质量和二元奖励)。