⏶5
FlashEdit:解耦速度、结构和语义以进行精确图像编辑
发表
由
taesiri 提交

作者: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang
摘要
AI 生成总结
FlashEdit 通过高效的反演、背景保留和局部注意力机制,实现了扩散模型的实时、高保真图像编辑。具有文本引导的扩散模型图像编辑取得了卓越的质量,但存在延迟过高的问题,阻碍了实际应用。我们提出了 FlashEdit,一个旨在实现高保真、实时图像编辑的新型框架。其效率源于三项关键创新:(1)一步反演和编辑 (OSIE) 流水线,绕过了昂贵的迭代过程;(2)背景屏蔽 (BG-Shield) 技术,通过仅选择性地修改编辑区域内的特征来保证背景保留;(3)稀疏空间交叉注意力 (SSCA) 机制,通过抑制语义泄露到背景来确保精确、局部化的编辑。广泛的实验表明,FlashEdit 在保持背景一致性和结构完整性方面表现出色,同时编辑时间不到 0.2 秒,与之前的多步方法相比,速度提高了 150 多倍。我们的代码将在 https://github.com/JunyiWuCode/FlashEdit 公开提供。
评论

您好,
我是 SwiftEdit (https://swift-edit.github.io/) 的第一作者,该论文已在 CVPR25 上被接收,早于此项工作。我发现这项工作在核心思想、架构设计、训练策略和编辑过程方面与 SwiftEdit 极为相似。
虽然我完全支持开放研究,并欢迎在此基础上进行贡献,但适当的引用和致谢是研究诚信的基础。我担心 SwiftEdit 在此未被引用,尽管存在显著的重叠。我恳请作者更新此项目页面和相关论文,以给予适当的署名。
具有扩散模型的文本引导图像编辑已达到卓越的质量,但存在延迟过高的问题,阻碍了实际应用。我们引入 FlashEdit,一个旨在实现高保真、实时图像编辑的新颖框架。其效率源于三个关键创新:(1) 一个绕过昂贵迭代过程的一步反演编辑 (OSIE) 管道;(2) 一个背景保护 (BG-Shield) 技术,通过选择性地仅修改编辑区域内的特征来保证背景的保留;以及 (3) 一个稀疏化空间交叉注意力 (SSCA) 机制,通过抑制语义泄漏到背景来确保精确、局部的编辑。大量实验表明,FlashEdit 在保持卓越的背景一致性和结构完整性的同时,编辑时间不到 0.2 秒,与之前的多步方法相比,速度提高了 150 倍以上。