⏶19
用于高效自回归图像生成的局部感知并行解码
发表
由
Zhuoyang Zhang 提交

作者: Zhuoyang Zhang, Luke J. Huang,
Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
摘要
我们提出了局部感知并行解码(LPD)以加速自回归图像生成。传统的自回归图像生成依赖于下一块(next-patch)预测,这是一个内存受限的过程,导致高延迟。现有工作试图通过转向多块(multi-patch)预测来并行化下一块预测以加速该过程,但仅实现了有限的并行化。为了实现高并行化同时保持生成质量,我们引入了两种关键技术:(1) 灵活并行化自回归建模(Flexible Parallelized Autoregressive Modeling),这是一种新颖的架构,支持任意生成顺序和并行化程度。它使用可学习的位置查询标记(learnable position query tokens)来引导目标位置的生成,同时确保并发生成的标记之间相互可见,从而实现一致的并行解码。(2) 局部感知生成排序(Locality-aware Generation Ordering),这是一种新颖的调度方法,通过形成组来最小化组内依赖并最大化上下文支持,从而提高生成质量。凭借这些设计,我们在ImageNet类别条件生成上,将生成步骤从256减少到20(256x256 分辨率)以及从1024减少到48(512x512 分辨率),同时不损害质量,并且比先前的并行化自回归模型至少将延迟降低了3.4倍。
我们提出了局部感知并行解码(LPD)以加速自回归图像生成。在ImageNet类别条件生成任务中,我们将生成步数从256步(256×256分辨率)减少到20步,将1024步(512×512分辨率)减少到48步,且不影响质量,同时实现了比以往并行化自回归模型至少低3.4倍的延迟。
Github: https://github.com/mit-han-lab/lpd