Uniworld-V2:通过扩散负感知微调和MLLM隐式反馈强化图像编辑

发表
Zongjian LiZongjian Li 提交
作者: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan

摘要

AI 生成总结
Edit-R1 是一个使用扩散负面感知微调和多模态大语言模型的训练后框架,通过解决过拟合和缺乏通用奖励模型的问题,在基于指令的图像编辑方面取得了最先进的成果。
基于指令的图像编辑取得了显著进展;然而,仅通过监督微调训练的模型往往会过度拟合标注模式,阻碍了它们在训练分布之外进行探索和泛化的能力。为此,我们引入了 Edit-R1,一个基于策略优化的、用于基于指令的图像编辑的新型训练后框架。具体来说,我们采用了 Diffusion Negative-aware Finetuning(DiffusionNFT),一种与流匹配前向过程一致的无似然策略优化方法,从而可以使用更高阶的采样器和更有效的训练。这里的另一个关键挑战是缺乏一个通用的奖励模型,这是由于编辑指令和任务的多样性造成的。为了弥合这一差距,我们采用了一个多模态大型语言模型(MLLM)作为统一的、无需训练的奖励模型,利用其输出的 logits 提供细粒度的反馈。此外,我们仔细设计了一个低方差组过滤机制,以减少 MLLM 评分的噪声并稳定优化。使用此框架训练的 UniWorld-V2 在 ImgEdit 和 GEdit-Bench 基准测试上取得了最先进的成果,分别获得 4.49 和 7.83 分。至关重要的是,我们的框架与模型无关,在应用于 Qwen-Image-Edit 和 FLUX-Kontext 等各种基础模型时,能够提供显著的性能提升,证明了其广泛的适用性。代码和模型可在 https://github.com/PKU-YuanGroup/UniWorld-V2 公开获取。
查看 arXiv 页面查看 PDF

评论