学习无图像编辑对的图像编辑模型

发表
taesiritaesiri 提交
作者: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang

摘要

AI 生成总结
一种新的图像编辑模型训练范式使用展开的扩散模型和视觉语言反馈,在没有配对数据的情况下实现了与监督模型相当的性能。
虽然最近的图像编辑模型在遵循自然语言编辑指令方面取得了令人印象深刻的结果,但它们依赖于对输入-目标对的大型数据集进行监督微调。这是一个关键瓶颈,因为自然出现的此类配对很难大规模地进行策划。目前的解决方案使用合成训练对,这些合成训练对利用了现有模型的零样本能力。然而,这可能会将预训练模型的伪影传播并放大到最终训练的模型中。在这项工作中,我们提出了一种新的训练范式,完全消除了对配对数据的需求。我们的方法通过在训练期间展开几步扩散模型,并利用视觉语言模型(VLM)的反馈,直接优化它们。对于每个输入和编辑指令,VLM 会评估编辑是否遵循了指令并保留了未更改的内容,从而为端到端优化提供直接梯度。为了确保视觉保真度,我们结合了分布匹配损失(DMD),该损失约束生成的图像保持在预训练模型学习的图像流形内。我们在标准基准上评估我们的方法,并包括广泛的消融研究。在没有任何配对数据的情况下,我们的方法在几步设置下,与在大量监督配对数据上训练的各种图像编辑扩散模型相当。给定相同的 VLM 作为奖励模型,我们还在评估中使用静态语料库的 BRIGHT 子集上优于像 Flow-GRPO 这样的基于 RL 的技术。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

近期的图像编辑模型在遵循自然语言编辑指令方面取得了令人印象深刻的结果,但它们依赖于带有大量输入-目标对的数据集的监督微调。这是一个关键瓶颈,因为自然出现的配对很难大规模地收集。目前的变通方法使用合成训练对,利用现有模型的零样本能力。然而,这会传播和放大预训练模型的伪影到最终训练好的模型中。在这项工作中,我们提出了一种新的训练范式,它完全消除了对配对数据的需求。我们的方法通过在训练过程中展开几步扩散模型,并利用视觉语言模型 (VLM) 的反馈来直接优化它们。对于每个输入和编辑指令,VLM 会评估编辑是否遵循指令并保留未更改的内容,从而为端到端优化提供直接的梯度。为了确保视觉保真度,我们结合了分布匹配损失 (DMD),它将生成的图像约束在预训练模型学习的图像流形内。我们在标准基准上评估了我们的方法,并包括了大量的消融研究。在没有任何配对数据的情况下,我们的方法在几步设置下,与在大量监督配对数据上训练的各种图像编辑扩散模型相当。在相同的 VLM 作为奖励模型的情况下,我们的方法也优于 Flow-GRPO 等基于 RL 的技术。