One-Way Ticket:用于蒸馏文本到图像扩散模型的时间独立统一编码器

发表
Senmao LiSenmao Li 提交
作者: Senmao LiSenmao Li, Lei Wang, Kai Wang, Tao Liu, Jiehang Xie, Joost van de Weijer, Fahad Shahbaz Khan, Shiqi Yang, Yaxing Wang, Jian Yang

摘要

文本到图像(T2I)扩散模型在生成建模方面取得了显著进展;然而,它们面临推理速度和图像质量之间的权衡,这对高效部署构成了挑战。现有的蒸馏 T2I 模型可以用更少的采样步骤生成高保真图像,但常常在多样性和质量方面存在困难,尤其是在一步模型中。根据我们的分析,我们观察到 UNet 编码器中存在冗余计算。我们的发现表明,对于 T2I 扩散模型,解码器更擅长捕捉更丰富、更明确的语义信息,而编码器可以在来自不同时间步的解码器之间有效共享。基于这些观察,我们为学生模型 UNet 架构引入了第一个时间无关统一编码器 TiUE,这是一种用于蒸馏 T2I 扩散模型的无循环图像生成方法。通过一次通过(one-pass)方案,TiUE 在多个解码器时间步之间共享编码器特征,从而实现并行采样并显著减少推理时间复杂度。此外,我们纳入了一个 KL 散度项来规范噪声预测,这增强了生成图像的感知真实感和多样性。实验结果表明,TiUE 优于现有最先进的方法,包括 LCM、SD-Turbo 和 SwiftBrushv2,在保持计算效率的同时产生更多样化和真实的结果。
查看 arXiv 页面查看 PDF

评论

Senmao LiSenmao Li
论文作者
论文提交者

我们采用了一种新颖的设计,具有1步编码器和4步解码器(时间无关统一编码器架构),实现了接近1步的推理。由于4步解码器捕获了更丰富的语义,我们的模型在生成质量上与多步扩散模型(DMs)对齐。通过一次性方案,TiUE在多个解码器时间步之间共享编码器特征,从而实现并行采样并显著降低推理时间复杂度。