⏶12

DragFlow：利用基于区域的监督释放DiT先验以实现拖拽编辑

10月02日发表

10月03日由 Shilin Lu 提交

作者: Zihan Zhou, Shilin Lu, Shuli Leng, Shaocong Zhang, Zhuming Lian, Xinlei Yu, Adams Wai-Kin Kong

摘要

AI 生成总结

DragFlow 利用 FLUX 强大的生成先验和基于区域的编辑以及仿射变换，在拖放式图像编辑方面取得了最先进的性能。

拖拽式图像编辑长期以来一直受到目标区域失真的困扰，这主要是因为早期基础模型 Stable Diffusion 的先验不足以将优化后的潜在向量投影回自然图像流形。随着从基于 UNet 的 DDPM 转向更具可扩展性的、基于流匹配的 DiT（例如 SD3.5、FLUX），生成先验已大大增强，从而在各种编辑任务中取得了进展。然而，拖拽式编辑尚未从这些更强的先验中受益。这项工作提出了第一个能够有效利用 FLUX 丰富先验进行拖拽式编辑的框架，称为 DragFlow，并在基线上取得了显著的改进。我们首先展示了直接将基于点的拖拽编辑应用于 DiT 模型效果不佳：与 UNet 高度压缩的特征不同，DiT 的特征结构不足以提供可靠的逐点运动监督。为了克服这一限制，DragFlow 引入了一种基于区域的编辑范式，其中仿射变换提供了更丰富、更一致的特征监督。此外，我们集成了预训练的开放域个性化适配器（例如 IP-Adapter）以增强主体一致性，同时通过基于梯度掩码的硬约束来保留背景保真度。多模态大型语言模型（MLLM）被进一步用于解决任务歧义。为了进行评估，我们创建了一个新颖的基于区域的拖拽基准（ReD Bench），其中包含区域级别的拖拽指令。在 DragBench-DR 和 ReD Bench 上的大量实验表明，DragFlow 优于基于点和基于区域的基线，创下了拖拽式图像编辑的新技术水平。代码和数据集将在发布后公开。

查看 arXiv 页面查看 PDF

Shilin Lu

论文作者

论文提交者

DragFlow：通过基于区域的监督来释放 DiT 先验，用于拖动编辑

DragFlow：利用基于区域的监督释放DiT先验以实现拖拽编辑

摘要

评论