面向指令引导图像编辑的视觉自回归建模

发表
Qi CaiQi Cai 提交
作者: Qingyang Mao, Qi CaiQi Cai, Yehao Li, Yingwei Pan, Mingyue Cheng, Ting Yao, Qi Liu, Tao Mei

摘要

扩散模型近期的进步为指令驱动的图像编辑带来了卓越的视觉保真度。然而,它们的全局去噪过程 不可避免地将编辑区域与整个图像上下文纠缠在一起,导致了意外的虚假修改以及编辑指令遵循性受损。 相比之下,自回归模型通过将图像合成构建为离散视觉 tokens 上的顺序过程,提供了一种不同的范式。 其因果和组合机制自然地规避了基于扩散的方法的遵循性挑战。 在本文中,我们提出了 VAREdit,一个视觉自回归 (VAR) 框架,该框架将图像编辑重塑为 下一个尺度预测问题。 在源图像特征和文本指令的条件下,VAREdit 生成多尺度目标特征以实现精确的编辑。 在此范式中,一个核心挑战是如何有效地条件化源图像 tokens。 我们观察到,最精细尺度的源特征无法有效地指导更粗糙的目标特征的预测。 为了弥合这一差距,我们引入了一个尺度对齐参考 (SAR) 模块, 该模块将尺度匹配的条件信息注入第一个自注意力层。 VAREdit 在编辑遵循性和效率方面均取得了显著进展。 在标准基准测试中,其 GPT-Balance 分数比领先的基于扩散的方法高出 30% 以上。 此外,它能在 1.2 秒内完成 512x512 的编辑,比尺寸相似的 UltraEdit 快 2.2 倍。 模型可在 https://github.com/HiDream-ai/VAREdit 获取。
查看 arXiv 页面查看 PDF
面向指令引导图像编辑的视觉自回归建模

评论

Qi CaiQi Cai
论文作者
论文提交者

近期扩散模型在指令引导图像编辑方面取得了令人瞩目的视觉保真度。然而,它们的全局去噪过程固有地将编辑区域与整个图像上下文纠缠在一起,导致意外的虚假修改并损害了对编辑指令的遵循。相比之下,自回归模型通过将图像合成构建为离散视觉标记的顺序过程,提供了一种独特的范式。它们的因果和组合机制自然地规避了基于扩散方法在遵循性方面的挑战。在本文中,我们提出了 VAREdit,一个视觉自回归 (VAR) 框架,它将图像编辑重构为下一个尺度的预测问题。VAREdit 以源图像特征和文本指令为条件,生成多尺度目标特征以实现精确编辑。该范式中的一个核心挑战是如何有效地以源图像标记作为条件。我们观察到,最精细尺度的源特征无法有效地指导更粗糙的目标特征的预测。为了弥合这一差距,我们引入了一个尺度对齐参考 (SAR) 模块,该模块将尺度匹配的条件信息注入第一个自注意力层。VAREdit 在编辑遵循性和效率方面均取得了显著的进步。在标准基准测试中,其 GPT-Balance 分数比领先的基于扩散的方法高出 30% 以上。此外,它可以在 1.2 秒内完成 512x512 的编辑,使其比尺寸相似的 UltraEdit 快 2.2 倍。模型可在 https://github.com/HiDream-ai/VAREdit 获取。