DetailFlow:通过预测下一细节进行一维从粗到细的自回归图像生成

发表
Liao QuLiao Qu 提交
作者: Yiheng Liu, Liao QuLiao Qu, Huichao Zhang, Xu Wang, Yi JiangYi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu

摘要

本文提出了 DetailFlow,一种从粗到细的一维自回归(AR)图像生成方法,它通过一种新颖的下一细节预测策略对图像进行建模。通过学习一个分辨率感知的 token 序列,并由逐步降级的图像进行监督,DetailFlow 使生成过程能够从全局结构开始,并逐步细化细节。这种从粗到细的一维 token 序列与自回归推理机制非常契合,为 AR 模型生成复杂视觉内容提供了一种更自然高效的方式。我们的紧凑一维 AR 模型以比以前方法(即 VAR/VQGAN)显著更少的 token 实现了高质量图像合成。我们在 ImageNet 256x256 基准上进一步提出了一种带有自修正的并行推理机制,可将生成速度提高约 8 倍,同时减少教师强制监督固有的累积采样误差。在 ImageNet 256x256 基准上,我们的方法使用 128 个 token 实现了 2.96 gFID,优于 VAR (3.3 FID) 和 FlexVAR (3.05 FID),这两者在其 AR 模型中都需要 680 个 token。此外,由于 token 数量显著减少和并行推理机制,我们的方法比 VAR 和 FlexVAR 的推理速度快近 2 倍。大量实验结果表明,DetailFlow 比现有最先进方法具有卓越的生成质量和效率。
查看 arXiv 页面查看 PDF

评论

Liao QuLiao Qu
论文作者
论文提交者

image.png