DragFlow:利用基于区域的监督释放DiT先验以实现拖拽编辑

发表
Shilin LuShilin Lu 提交
作者: Zihan ZhouZihan Zhou, Shilin LuShilin Lu, Shuli LengShuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong

摘要

AI 生成总结
DragFlow 利用 FLUX 强大的生成先验和基于区域的编辑以及仿射变换,在拖放式图像编辑方面取得了最先进的性能。
拖拽式图像编辑长期以来一直受到目标区域失真的困扰,这主要是因为早期基础模型 Stable Diffusion 的先验不足以将优化后的潜在向量投影回自然图像流形。随着从基于 UNet 的 DDPM 转向更具可扩展性的、基于流匹配的 DiT(例如 SD3.5、FLUX),生成先验已大大增强,从而在各种编辑任务中取得了进展。然而,拖拽式编辑尚未从这些更强的先验中受益。这项工作提出了第一个能够有效利用 FLUX 丰富先验进行拖拽式编辑的框架,称为 DragFlow,并在基线上取得了显著的改进。我们首先展示了直接将基于点的拖拽编辑应用于 DiT 模型效果不佳:与 UNet 高度压缩的特征不同,DiT 的特征结构不足以提供可靠的逐点运动监督。为了克服这一限制,DragFlow 引入了一种基于区域的编辑范式,其中仿射变换提供了更丰富、更一致的特征监督。此外,我们集成了预训练的开放域个性化适配器(例如 IP-Adapter)以增强主体一致性,同时通过基于梯度掩码的硬约束来保留背景保真度。多模态大型语言模型(MLLM)被进一步用于解决任务歧义。为了进行评估,我们创建了一个新颖的基于区域的拖拽基准(ReD Bench),其中包含区域级别的拖拽指令。在 DragBench-DR 和 ReD Bench 上的大量实验表明,DragFlow 优于基于点和基于区域的基线,创下了拖拽式图像编辑的新技术水平。代码和数据集将在发布后公开。
查看 arXiv 页面查看 PDF

评论

Shilin LuShilin Lu
论文作者
论文提交者

DragFlow:通过基于区域的监督来释放 DiT 先验,用于拖动编辑