⏶5

FlashEdit：解耦速度、结构和语义以进行精确图像编辑

09月26日发表

09月29日由 taesiri 提交

作者: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang

摘要

AI 生成总结

FlashEdit 通过高效的反演、背景保留和局部注意力机制，实现了扩散模型的实时、高保真图像编辑。

具有文本引导的扩散模型图像编辑取得了卓越的质量，但存在延迟过高的问题，阻碍了实际应用。我们提出了 FlashEdit，一个旨在实现高保真、实时图像编辑的新型框架。其效率源于三项关键创新：（1）一步反演和编辑 (OSIE) 流水线，绕过了昂贵的迭代过程；（2）背景屏蔽 (BG-Shield) 技术，通过仅选择性地修改编辑区域内的特征来保证背景保留；（3）稀疏空间交叉注意力 (SSCA) 机制，通过抑制语义泄露到背景来确保精确、局部化的编辑。广泛的实验表明，FlashEdit 在保持背景一致性和结构完整性方面表现出色，同时编辑时间不到 0.2 秒，与之前的多步方法相比，速度提高了 150 多倍。我们的代码将在 https://github.com/JunyiWuCode/FlashEdit 公开提供。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

具有扩散模型的文本引导图像编辑已达到卓越的质量，但存在延迟过高的问题，阻碍了实际应用。我们引入 FlashEdit，一个旨在实现高保真、实时图像编辑的新颖框架。其效率源于三个关键创新：(1) 一个绕过昂贵迭代过程的一步反演编辑 (OSIE) 管道；(2) 一个背景保护 (BG-Shield) 技术，通过选择性地仅修改编辑区域内的特征来保证背景的保留；以及 (3) 一个稀疏化空间交叉注意力 (SSCA) 机制，通过抑制语义泄漏到背景来确保精确、局部的编辑。大量实验表明，FlashEdit 在保持卓越的背景一致性和结构完整性的同时，编辑时间不到 0.2 秒，与之前的多步方法相比，速度提高了 150 倍以上。

Khoi Nguyen

本文的想法与 SwiftEdit：https://arxiv.org/abs/2412.04301 (CVPR 2025) 非常相似。但未提及任何引用或讨论。

NGUYEN TRONG TUNG

您好，

我是 SwiftEdit (https://swift-edit.github.io/) 的第一作者，该论文已在 CVPR25 上被接收，早于此项工作。我发现这项工作在核心思想、架构设计、训练策略和编辑过程方面与 SwiftEdit 极为相似。

虽然我完全支持开放研究，并欢迎在此基础上进行贡献，但适当的引用和致谢是研究诚信的基础。我担心 SwiftEdit 在此未被引用，尽管存在显著的重叠。我恳请作者更新此项目页面和相关论文，以给予适当的署名。

FlashEdit：解耦速度、结构和语义以进行精确图像编辑

摘要

评论