⏶46
结合自回归 Transformer 和扩散模型与多引用自回归
发表
由
zhen dc 提交
作者:
Dingcheng Zhen,
Qian Qiao, Tan Yu, Kangxi Wu, Ziwei Zhang, Siyuan Liu, Shunshun Yin, Ming Tao
摘要
我们介绍了 TransDiff,这是首个将自回归 (AR) Transformer 与扩散模型相结合的图像生成模型。在这种联合建模框架中,TransDiff 将标签和图像编码为高级语义特征,并采用扩散模型来估计图像样本的分布。在 ImageNet 256x256 基准测试中,TransDiff 显著优于其他基于独立 AR Transformer 或扩散模型的图像生成模型。具体来说,TransDiff 实现了 1.61 的 Fr\'echet Inception 距离 (FID) 和 293.4 的 Inception 分数 (IS),并且与基于 AR Transformer 的最先进方法相比,推理延迟快 2 倍,与仅基于扩散的模型相比,推理速度快 112 倍。此外,基于 TransDiff 模型,我们引入了一种新颖的图像生成范式,称为多参考自回归 (MRAR),它通过预测下一张图像来执行自回归生成。MRAR 使模型能够参考多个先前生成的图像,从而促进学习更多样化的表示并提高后续迭代中生成图像的质量。通过应用 MRAR,TransDiff 的性能得到提升,FID 从 1.61 降低到 1.42。我们期望 TransDiff 能在图像生成领域开辟新天地。
大家好,我很高兴介绍我们的新工作——《将自回归Transformer和Diffusion与多参考自回归相结合》(Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression),我们将其称为TransDiff。
首先,TransDiff是目前将AR Transformer和Diffusion结合用于图像生成的最简单方法。TransDiff通过AR Transformer将离散输入(如类别、文本等)和连续输入(如图像)编码为图像语义表示,然后通过一个更小的Diffusion Decoder将这些表示解码为图像。
此外,我们提出了一种新的自回归范式——MRAR(Multi-Reference Autoregression,多参考自回归)。这种范式类似于NLP中的上下文学习(ICL):通过学习同一类别的先前图像,生成更好、更多样化的图像。唯一的区别是,这些先前的图像是由模型本身生成的。
为了节省读者的时间,我们放弃了传统的论文结构,以更“对话式”的问答形式介绍了TransDiff。这些问题也是我们研究的动机。
答:早期的CLIP工作以及后续VL领域的大模型已经证明了Transformer在图像理解方面的优势。尤其是在CLIP工作中,ViT模型可以将图像表示与语义空间对齐(文本BERT表示与图像ViT表示之间的余弦相似度)。
类似地,实验表明TransDiff中的AR Transformer也将类别和图像编码到图像的高级(对比像素)语义空间中。以下演示了通过随机拼接不同类别的256维特征来生成图像。与其他编辑像素的模型(VAR、LlamaGen等)不同,定性实验展示了模型的语义编辑能力。
答:TransDiff的解码器使用DiT结构并遵循Flow Matching范式。扩散部分占总参数的三分之一,显著少于主流扩散模型。然而,与所有可用的纯Diffusion和AR Transformer方法相比,TransDiff在基准测试中仍然表现出一定的优势,至少展现了“你来我往”的竞争性能。
答:尽管TransDiff和MAR在结构上相似,但模型表现出的特性却大相径庭。首先,MAR在像素(或块)级别上生成,没有明确的语义表示。此外,MAR使用了一个非常简单的Diffusion Decoder(带n层MLP),这限制了解码器的表达能力。因此,如下图所示:MAR无法“一步生成图像”,图像块是通过自回归迭代逐渐完善的。
答:首先,与Token-Level AR和Scale-Level AR相比,采用MRAR的TransDiff在基准测试中具有显著优势。其次,我们发现语义表示的多样性越高,图像质量越高。与Scale-Level AR相比,MRAR可以显著提高语义表示的多样性。
带有MRAR的TransDiff展示了在未经过视频数据训练的情况下生成连续帧的潜力。因此,我们未来也将把TransDiff应用于视频生成领域,敬请期待。