ConsistEdit:高度一致且精确的无需训练的视觉编辑

发表
Zixin YinZixin Yin 提交
作者: Zixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai

摘要

AI 生成总结
ConsistEdit,一种用于MM-DiT的新型注意力控制方法,通过确保在所有推理步骤和注意力层中的一致性和细粒度控制来增强图像和视频编辑。
近年来,无训练注意力控制方法的进步使得现有生成模型能够实现灵活高效的文本引导编辑能力。然而,当前的方法在同时实现强大的编辑强度和保持与源的一致性方面存在困难。在多轮和视频编辑中,视觉错误会随着时间的累积,这一限制变得尤为关键。此外,大多数现有方法强制执行全局一致性,这限制了它们修改单个属性(如纹理)同时保留其他属性的能力,从而阻碍了精细编辑。最近,从U-Net到MM-DiT的架构转变在生成性能方面带来了显著的改进,并引入了一种整合文本和视觉模态的新机制。这些进步为克服先前方法未能解决的挑战铺平了道路。通过对MM-DiT的深入分析,我们发现了其注意力机制的三个关键洞察。在此基础上,我们提出了ConsistEdit,一种专为MM-DiT量身定制的新型注意力控制方法。ConsistEdit结合了纯视觉注意力控制、掩码引导的预注意力融合,以及对查询、键和值令牌的不同处理,以产生一致的、与提示对齐的编辑。广泛的实验表明,ConsistEdit在广泛的图像和视频编辑任务中取得了最先进的性能,包括结构一致和结构不一致的场景。与以往的方法不同,它是第一个在所有推理步骤和注意力层上进行编辑而无需手工设计的方法,显著提高了可靠性和一致性,从而实现了鲁棒的多轮和多区域编辑。此外,它支持结构一致性的渐进式调整,实现了更精细的控制。
查看 arXiv 页面查看 PDF

评论

Zixin YinZixin Yin
论文提交者

训练免费注意力控制方法方面的最新进展,为现有生成模型提供了灵活高效的文本引导编辑功能。然而,当前方法在同时实现强大的编辑强度并保持与源的一致性方面存在困难。在多轮和视频编辑中,这种限制尤其关键,因为视觉错误会随着时间累积。此外,大多数现有方法强制执行全局一致性,这限制了它们修改单个属性(如纹理)同时保留其他属性的能力,从而阻碍了精细编辑。最近,从 U-Net 到 MM-DiT 的架构转变在生成性能方面带来了显著改进,并引入了一种集成文本和视觉模态的新机制。这些进步为克服先前方法未能解决的挑战铺平了道路。通过对 MM-DiT 的深入分析,我们发现了其注意力机制的三个关键见解。在此基础上,我们提出了 ConsistEdit,一种专门为 MM-DiT 量身定制的新型注意力控制方法。ConsistEdit 结合了仅视觉注意力控制、掩码引导的预注意力融合以及对查询、键和值令牌的差异化操作,以产生一致的、与提示对齐的编辑。大量实验表明,ConsistEdit 在广泛的图像和视频编辑任务中取得了最先进的性能,包括结构一致和结构不一致的场景。与先前的方法不同,它是第一个在所有推理步骤和注意力层中进行编辑而无需手工制作的方法,大大提高了可靠性和一致性,从而能够进行鲁棒的多轮和多区域编辑。此外,它支持结构一致性的渐进式调整,从而实现更精细的控制。