⏶19
STARFlow: 扩展潜在归一化流用于高分辨率图像合成
发表
由
Jiatao Gu 提交

作者: Jiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai
摘要
我们提出了 STARFlow,一种基于归一化流的可扩展生成模型,在高清图像合成方面取得了强大性能。STARFlow 的核心是 Transformer 自回归流 (TARFlow),它结合了归一化流的表达能力以及自回归 Transformer 的结构化建模能力。我们首先建立了 TARFlow 在建模连续分布方面的理论普适性。在此基础上,我们引入了多项关键的架构和算法创新,以显著提升其可扩展性:(1) 采用深浅设计,其中一个深层 Transformer 块捕捉了模型大部分的表示能力,并辅以少量浅层 Transformer 块,这些块计算高效且大有裨益;(2) 在预训练自编码器的潜在空间中进行建模,这被证明比直接在像素级别建模更有效;以及 (3) 一种新颖的引导算法,显著提升了样本质量。至关重要的是,我们的模型仍然是一个端到端的归一化流,从而能够在连续空间中进行精确的最大似然训练,无需离散化。STARFlow 在类别条件和文本条件图像生成任务中均取得了有竞争力的性能,在样本质量上接近最先进的扩散模型。据我们所知,这项工作首次成功展示了归一化流在此规模和分辨率下有效运行。
可扩展的归一化流模型,达到扩散模型级别质量