UNCAGE:文本到图像生成中掩码生成式 Transformer 的对比注意力引导

发表
Wonjun KangWonjun Kang 提交
作者: Wonjun KangWonjun Kang, Byeongkeun Ahn, Minjae LeeMinjae Lee, Kevin Galim, Seunghyuk OhSeunghyuk Oh, Hyung Il Koo, Nam Ik Cho

摘要

文本到图像(T2I)生成已使用扩散模型和自回归模型进行了积极研究。最近,掩码生成式 Transformer 作为自回归模型的替代品受到了关注,它通过双向注意力和并行解码克服了因果注意力和自回归解码的固有局限性,从而实现了高效、高质量的图像生成。然而,组合式 T2I 生成仍然具有挑战性,因为即使是最先进的扩散模型也常常无法准确绑定属性并实现适当的文本图像对齐。虽然扩散模型已针对此问题进行了广泛研究,但掩码生成式 Transformer 表现出类似的局限性,但在此背景下尚未得到探索。为了解决这个问题,我们提出了具有对比注意力引导的去掩码(UNCAGE),这是一种新颖的无训练方法,通过利用注意力图优先去掩码清晰表示单个对象的令牌来提高组合保真度。UNCAGE 在多个基准和指标上,无论是在定量还是定性评估中,都持续提高了性能,且推理开销可忽略不计。我们的代码可在 https://github.com/furiosa-ai/uncage 获取。
查看 arXiv 页面查看 PDF

评论

Wonjun KangWonjun Kang
论文作者
论文提交者

UNCAGE 是一种新颖的去遮蔽方法,通过使用对比注意力引导来优先去遮蔽明确表示单个对象的token,从而改进掩码生成 Transformer 中的组合文本到图像生成。