⏶19
DiffusionNFT: 正向过程的在线扩散强化
发表
由
Kaiwen Zheng 提交
作者:
Kaiwen Zheng,
Huayu Chen, Haotian Ye, Haoxiang Wang,
Qinsheng Zhang, Kai Jiang, Hang Su,
Stefano Ermon, Jun Zhu,
Ming-Yu Liu
摘要
AI 生成总结
Diffusion Negative-aware FineTuning (DiffusionNFT) 通过流匹配直接在正向过程中优化扩散模型,与现有方法相比提高了效率和性能。在线强化学习(RL)一直是语言模型后训练的核心,但由于可能性难以处理,其扩展到扩散模型仍然具有挑战性。最近的工作将反向采样过程离散化以实现 GRPO 类训练,但它们继承了根本性的缺点,包括求解器限制、正反不一致以及与分类器自由引导(CFG)的复杂集成。我们引入了 Diffusion Negative-aware FineTuning(DiffusionNFT),一种新的在线 RL 范例,它直接通过流匹配在前向过程中优化扩散模型。DiffusionNFT 对正向和负向生成进行对比,以定义隐式策略改进方向,将强化信号自然地融入监督学习目标。这种方法允许使用任意黑盒求解器进行训练,无需进行似然估计,并且只需要干净的图像,而不是采样轨迹来进行策略优化。DiffusionNFT 在直接比较中比 FlowGRPO 的效率高出 25 倍,同时是 CFG-free 的。例如,DiffusionNFT 在 1k 步内将 GenEval 分数从 0.24 提高到 0.98,而 FlowGRPO 在 5k 多步和额外的 CFG 应用下达到 0.95。通过利用多个奖励模型,DiffusionNFT 在所有测试的基准测试中都显著提高了 SD3.5-Medium 的性能。
一种基于前向过程的新的在线扩散强化学习方法