离散噪声反演用于下一代自回归文本图像编辑

发表
Quan DaoQuan Dao 提交
作者: Quan DaoQuan Dao, Xiaoxiao He, Ligong Han, Ngan Hoai Nguyen, Amin Heyrani Nobar, Faez Ahmed, Han Zhang, Viet Anh Nguyen, Dimitris Metaxas

摘要

视觉自回归模型(VAR)最近已成为一类有前途的生成模型,在文本到图像生成任务中取得了与扩散模型相当的性能。尽管条件生成已被广泛探索,但能够在无需额外训练的情况下进行提示引导的图像编辑同样关键,因为它支持众多实际应用。本文通过引入Visual AutoRegressive Inverse Noise(VARIN)来研究VAR的文本到图像编辑能力,VARIN是第一个专门为VAR模型设计的基于噪声反演的编辑技术。VARIN利用一种新颖的伪逆函数用于argmax采样,称为位置感知argmax反演(LAI),以生成反向Gumbel噪声。这些反向噪声能够精确重建源图像,并实现与文本提示对齐的、可控的编辑。大量的实验表明,VARIN能够根据指定的提示有效修改源图像,同时显著保留原始背景和结构细节,从而验证了其作为实际编辑方法的有效性。
查看 arXiv 页面查看 PDF

评论

Quan DaoQuan Dao
论文作者
论文提交者

视觉自回归模型(VAR)最近已成为一种有前途的生成模型类别,在文本到图像生成任务中的性能可与扩散模型相媲美。虽然条件生成已被广泛探索,但无需额外训练即可进行提示引导的图像编辑能力同样至关重要,因为它支持众多实际的现实世界应用。本文通过引入 Visual AutoRegressive Inverse Noise (VARIN) 来研究 VAR 的文本到图像编辑能力,VARIN 是第一种专为 VAR 模型设计的基于噪声反演的编辑技术。VARIN 利用一种新颖的伪逆函数进行 argmax 采样,称为 Location-aware Argmax Inversion (LAI),以生成逆 Gumbel 噪声。这些逆噪声能够精确重建源图像,并促进与文本提示一致的定向、可控编辑。大量实验表明,VARIN 能根据指定的提示有效地修改源图像,同时显著保留原始背景和结构细节,从而验证了其作为实际编辑方法的有效性。