⏶11
免微调图像编辑:通过统一的潜在扩散模型兼具保真度和可编辑性
发表
由
Lan Chen 提交
作者:
Qi Mao, Lan Chen,
Yuchao Gu,
Mike Zheng Shou, Ming-Hsuan Yang
摘要
AI 生成总结
UnifyEdit 利用带有自适应约束的扩散潜在优化,在基于文本的图像编辑中平衡结构保真度和文本对齐。在基于文本的图像编辑 (TIE) 中,平衡保真度和可编辑性至关重要,失败通常会导致过度编辑或编辑不足的问题。现有方法通常依赖于注意力注入来保持结构,并利用预训练的文本到图像 (T2I) 模型的固有文本对齐能力来实现可编辑性,但它们缺乏明确且统一的机制来适当平衡这两个目标。在这项工作中,我们介绍了 UnifyEdit,这是一种免调优方法,它执行扩散潜在优化,以在统一框架内实现保真度和可编辑性的平衡集成。与直接注意力注入不同,我们开发了两个基于注意力的约束:用于结构保真度的自注意力 (SA) 保留约束,以及用于增强文本对齐以提高可编辑性的交叉注意力 (CA) 对齐约束。然而,同时应用这两个约束可能会导致梯度冲突,其中一个约束的优势会导致过度编辑或编辑不足。为了解决这一挑战,我们引入了一个自适应时间步长调度器,它可以动态调整这些约束的影响,引导扩散潜在空间朝着最佳平衡方向发展。大量的定量和定性实验验证了我们方法的有效性,证明了其在跨各种编辑任务实现结构保留和文本对齐之间的稳健平衡方面的优越性,优于其他最先进的方法。源代码将在 https://github.com/CUC-MIPG/UnifyEdit 上提供。
评论
论文提交者
