SuperEdit:纠正和促进基于指令的图像编辑的监督

发表
Ming LiMing Li 提交
作者: Ming LiMing Li, Xin Gu, Fan Chen, Xiaoying XingXiaoying Xing, Longyin WenLongyin Wen, Chen Chen, Sijie ZhuSijie Zhu

摘要

由于手动收集准确编辑数据面临挑战,现有数据集通常使用各种自动化方法构建,导致编辑指令与原始-编辑图像对之间的不匹配产生噪声监督信号。最近的一些努力试图通过生成更高质量的编辑图像、在识别任务上进行预训练或引入视觉-语言模型 (VLMs) 来改进编辑模型,但未能解决这一根本问题。在本文中,我们通过为给定的图像对构建更有效的编辑指令来提供一种新颖的解决方案。这包括纠正编辑指令以更好地与原始-编辑图像对对齐,并使用对比编辑指令进一步增强其有效性。具体来说,我们发现编辑模型在不同的推理步骤表现出特定的生成属性,这与文本无关。基于这些先验属性,我们为 VLMs 定义了一个统一的指导来纠正编辑指令。然而,有些具有挑战性的编辑场景无法仅凭纠正后的指令解决。为此,我们进一步构建了包含正负指令的对比监督信号,并使用三元组损失将其引入模型训练中,从而进一步促进监督的有效性。我们的方法不需要以前工作中使用的 VLM 模块或预训练任务,提供了一种更直接、更有效的方式来提供更好的监督信号,并为基于指令的图像编辑提供了一种新颖、简单且有效的解决方案。多个基准上的结果表明,我们的方法显著优于现有方法。与之前的 SOTA SmartEdit 相比,我们在 Real-Edit 基准上取得了 9.19% 的提升,同时训练数据减少了 30 倍,模型大小缩小了 13 倍。
查看 arXiv 页面查看 PDF

评论