D-AR:通过自回归模型的扩散

发表
Ziteng GaoZiteng Gao 提交
作者: Ziteng GaoZiteng Gao, Mike ShouMike Zheng Shou

摘要

本文提出了基于自回归模型的扩散(D-AR),这是一种将图像扩散过程重塑为标准下一个词元预测方式的普通自回归过程的新范式。我们首先设计了一个分词器,将图像转换为离散词元序列,其中不同位置的词元可以被解码为像素空间中不同的扩散去噪步骤。得益于扩散特性,这些词元自然遵循从粗到细的顺序,这直接适用于自回归建模。因此,我们对这些词元应用标准的下一个词元预测,无需修改任何底层设计(无论是因果掩码还是训练/推理策略),并且这种顺序自回归词元生成直接反映了图像空间中的扩散过程。也就是说,一旦自回归模型生成了一批词元,我们就可以以流式方式直接将这些词元解码为相应的扩散去噪步骤。我们的流水线自然地揭示了几个有趣的特性,例如,它在仅生成一部分词元时支持一致的预览,并支持零样本的布局控制合成。在标准的 ImageNet 基准测试中,我们的方法使用 7.75 亿参数的 Llama 主干模型和 256 个离散词元实现了 2.09 的 FID。我们希望我们的工作能够启发未来对统一视觉合成自回归架构的研究,特别是结合大型语言模型。代码和模型将发布在 https://github.com/showlab/D-AR
查看 arXiv 页面查看 PDF

评论

Ziteng GaoZiteng Gao
论文作者
论文提交者

本文提出了通过自回归模型的扩散框架,这是一条通向具备原生视觉生成能力的统一大型语言模型的潜在路径。