利用扩散模型实现程序化图像编辑

发表
Xingyi YangXingyi Yang 提交
作者: HU YUJIAYujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi YangXingyi Yang, Xinchao Wang

摘要

虽然扩散模型在文本到图像生成方面取得了显著成功,但在指令驱动的图像编辑方面它们遇到了重大挑战。我们的研究突出了一个关键挑战:这些模型在涉及大量布局更改的结构不一致编辑方面尤其困难。为了弥补这一空白,我们引入了Image Editing As Programs (IEAP),一个基于扩散变换器(Diffusion Transformer, DiT)架构的统一图像编辑框架。IEAP的核心是通过还原论的视角来处理指令式编辑,将复杂的编辑指令分解为一系列原子操作。每个操作都通过一个轻量级适配器实现,该适配器共享相同的DiT骨干网络,并专门用于特定类型的编辑。由基于视觉-语言模型(VLM)的智能体编程,这些操作协同支持任意且结构不一致的变换。通过这种方式模块化和序列化编辑,IEAP在从简单调整到实质性结构更改的各种编辑任务中都表现出强大的泛化能力。广泛的实验表明,IEAP在各种编辑场景的标准基准测试上显著优于最先进的方法。在这些评估中,我们的框架提供了卓越的准确性和语义忠实度,特别是对于复杂的多步骤指令。代码可在https://github.com/YujiaHu1109/IEAP获取。
查看 arXiv 页面查看 PDF
利用扩散模型实现程序化图像编辑

评论