⏶14
DetailFlow:通过预测下一细节进行一维从粗到细的自回归图像生成
发表
由
Liao Qu 提交
作者: Yiheng Liu,
Liao Qu, Huichao Zhang, Xu Wang,
Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu

摘要
本文提出了 DetailFlow,一种从粗到细的一维自回归(AR)图像生成方法,它通过一种新颖的下一细节预测策略对图像进行建模。通过学习一个分辨率感知的 token 序列,并由逐步降级的图像进行监督,DetailFlow 使生成过程能够从全局结构开始,并逐步细化细节。这种从粗到细的一维 token 序列与自回归推理机制非常契合,为 AR 模型生成复杂视觉内容提供了一种更自然高效的方式。我们的紧凑一维 AR 模型以比以前方法(即 VAR/VQGAN)显著更少的 token 实现了高质量图像合成。我们在 ImageNet 256x256 基准上进一步提出了一种带有自修正的并行推理机制,可将生成速度提高约 8 倍,同时减少教师强制监督固有的累积采样误差。在 ImageNet 256x256 基准上,我们的方法使用 128 个 token 实现了 2.96 gFID,优于 VAR (3.3 FID) 和 FlexVAR (3.05 FID),这两者在其 AR 模型中都需要 680 个 token。此外,由于 token 数量显著减少和并行推理机制,我们的方法比 VAR 和 FlexVAR 的推理速度快近 2 倍。大量实验结果表明,DetailFlow 比现有最先进方法具有卓越的生成质量和效率。
评论
论文作者
论文提交者