⏶6
CannyEdit:用于无训练图像编辑的选择性 Canny 控制和双提示引导
发表
由
Wy Xie 提交
作者:
Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang
摘要
近期,文本到图像(T2I)模型在生成先验知识的赋能下,实现了无需训练的区域图像编辑。然而,现有方法在平衡编辑区域的文本遵循度、未编辑区域的上下文保真度以及编辑的无缝集成方面存在困难。我们提出了CannyEdit,一个创新的无训练框架,通过两项关键创新来应对这些挑战:(1)选择性Canny控制,它在用户指定的编辑区域内掩盖Canny ControlNet的结构引导,同时通过反转阶段ControlNet信息保留,严格保留未编辑区域的源图像细节。这使得在不影响上下文完整性的前提下,能够进行精确的、由文本驱动的编辑。(2)双重提示引导,它将用于特定对象编辑的局部提示与全局目标提示相结合,以维持连贯的场景交互。在真实图像编辑任务(添加、替换、移除)中,CannyEdit的表现优于KV-Edit等现有方法,在文本遵循度和上下文保真度的平衡方面提高了2.93%至10.49%。在编辑无缝性方面,用户研究显示,当CannyEdit的结果与未编辑的真实图像配对时,只有49.2%的一般用户和42.0%的AIGC专家能够识别出是AI编辑的,而竞争方法则为76.08%至89.09%。
评论
论文作者
论文提交者
此评论已隐藏。