基于掩码比特建模的自回归图像生成

发表
Qihang YuQihang Yu 提交
作者: Qihang Yu, Qihao Liu, Ju HeJu He, Xinyang Zhang, Yang Liu, Liang-Chieh Chen, Xi Chen

摘要

AI 生成总结
离散分词器(Tokenizers)在适当缩放时可以达到或超过连续方法,且一种新型的掩码位自回归(Bit AutoRegressive)建模方法以更低的计算成本实现了最先进的结果。
本文挑战了视觉生成中连续流水线的主导地位。我们系统地研究了离散与连续方法之间的性能差距。与“离散分词器本质上较差”的信念相反,我们证明了这种差异主要源于在潜空间中分配的总比特数(即压缩比)。我们表明,扩大码本 (codebook) 规模能有效弥补这一差距,使离散分词器能够匹敌或超越连续同行。然而,现有的离散生成方法难以利用这一见解,在码本扩大时面临性能下降或昂贵的训练成本。为了解决这个问题,我们提出了掩码比特自回归建模 (BAR),这是一个支持任意码本规模的可扩展框架。通过为自回归 Transformer 配备掩码比特建模头,BAR 通过逐步生成组成比特来预测离散 Token。BAR 在 ImageNet-256 上实现了 0.99 的新 SOTA gFID,优于连续和离散范式中的领先方法,同时显著降低了采样成本,且收敛速度快于先前的连续方法。项目主页:https://bar-gen.github.io/
查看 arXiv 页面查看 PDF

评论

Qihang YuQihang Yu
论文提交者

SOTA 离散视觉生成以 0.99 FID 分数击败扩散模型,项目页面见 https://bar-gen.github.io/