CannyEdit:用于无训练图像编辑的选择性 Canny 控制和双提示引导

发表
Wy XieWy Xie 提交
作者: Wy XieWeiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang

摘要

近期,文本到图像(T2I)模型在生成先验知识的赋能下,实现了无需训练的区域图像编辑。然而,现有方法在平衡编辑区域的文本遵循度、未编辑区域的上下文保真度以及编辑的无缝集成方面存在困难。我们提出了CannyEdit,一个创新的无训练框架,通过两项关键创新来应对这些挑战:(1)选择性Canny控制,它在用户指定的编辑区域内掩盖Canny ControlNet的结构引导,同时通过反转阶段ControlNet信息保留,严格保留未编辑区域的源图像细节。这使得在不影响上下文完整性的前提下,能够进行精确的、由文本驱动的编辑。(2)双重提示引导,它将用于特定对象编辑的局部提示与全局目标提示相结合,以维持连贯的场景交互。在真实图像编辑任务(添加、替换、移除)中,CannyEdit的表现优于KV-Edit等现有方法,在文本遵循度和上下文保真度的平衡方面提高了2.93%至10.49%。在编辑无缝性方面,用户研究显示,当CannyEdit的结果与未编辑的真实图像配对时,只有49.2%的一般用户和42.0%的AIGC专家能够识别出是AI编辑的,而竞争方法则为76.08%至89.09%。
查看 arXiv 页面查看 PDF

评论

Wy XieWy Xie
论文作者
论文提交者
此评论已隐藏。
Wy XieWy Xie
论文作者
论文提交者

截屏2025-08-13 下午10.54.59.png

截屏2025-08-13 下午10.55.13.png

Wy XieWy Xie
论文作者
论文提交者

截屏2025-08-13 下午10.55.26.png

截屏2025-08-13 下午10.55.31.png

Wy XieWy Xie
论文作者
论文提交者

亮点:

  1. 高质量的区域特定图像编辑

我们的方法实现了高质量的区域特定图像编辑,在SOTA的自由格式图像编辑方法无法准确进行编辑的情况下尤其有用。

  1. 支持一次性进行多次编辑

当给出多个蒙版时,我们的方法可以在一次生成过程中支持对多个用户特定区域的编辑。

  1. 精确的局部控制
  • 通过指定蒙版大小,我们的方法可以有效地控制生成主体的尺寸。

  • 通过在文本中提供不同的局部细节,可以生成具有不同视觉特征的主体。