免训练文本引导的多模态扩散 Transformer 颜色编辑

发表
Zixin YinZixin Yin 提交
作者: Zixin YinZixin Yin, Xili Dai, Ling-Hao ChenLing-Hao Chen, Deyu Zhou, Jianan Wang, wangDuomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

摘要

图像和视频中的文本引导颜色编辑是一个基本但尚未解决的问题,它要求对颜色属性进行精细操作,包括反照率、光源颜色和环境照明,同时保持几何、材料属性和光物质相互作用的物理一致性。现有的免训练方法在编辑任务中具有广泛的适用性,但难以实现精确的颜色控制,并且经常在编辑和非编辑区域引入视觉不一致性。在这项工作中,我们提出了ColorCtrl,一种免训练的颜色编辑方法,它利用了现代多模态扩散Transformer(MM-DiT)的注意力机制。通过有针对性地操纵注意力图和值令牌来解耦结构和颜色,我们的方法实现了准确和一致的颜色编辑,以及对属性强度的词级控制。我们的方法只修改提示指定的预期区域,而不触及不相关的区域。在SD3和FLUX.1-dev上进行的大量实验表明,ColorCtrl优于现有的免训练方法,并在编辑质量和一致性方面取得了最先进的性能。此外,我们的方法在一致性方面超越了强大的商业模型,如FLUX.1 Kontext Max和GPT-4o图像生成。当扩展到CogVideoX等视频模型时,我们的方法表现出更大的优势,尤其是在保持时间连贯性和编辑稳定性方面。最后,我们的方法也推广到基于指令的编辑扩散模型,如Step1X-Edit和FLUX.1 Kontext dev,进一步展示了其多功能性。
查看 arXiv 页面查看 PDF

评论

Zixin YinZixin Yin
论文作者
论文提交者

teaser.jpg