DC-Gen:通过深度压缩的潜在空间进行训练后扩散加速

发表
Han CaiHan Cai 提交
作者: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, ChenJunsong Chen, Enze Xie, Song Han, Han Cai

摘要

AI 生成总结
DC-Gen 通过压缩潜在空间来加速文本到图像的扩散模型,显著降低了 4K 图像生成的延迟,同时保持了质量。
现有的文本到图像扩散模型在生成高质量图像方面表现出色,但在扩展到高分辨率(如 4K 图像生成)时面临效率挑战。虽然之前的研究在各个方面加速了扩散模型,但很少能处理潜在空间中的固有冗余。为了弥合这一差距,本文引入了 DC-Gen,这是一个利用深度压缩潜在空间来加速文本到图像扩散模型的通用框架。DC-Gen 不是采用成本高昂的从头开始训练方法,而是使用一个高效的训练后管道来保持基线模型的质量。该范式中的一个关键挑战是基线模型潜在空间与深度压缩潜在空间之间的表示差距,这可能导致直接微调过程中的不稳定性。为了克服这一问题,DC-Gen 首先通过轻量级的嵌入对齐训练来弥合表示差距。一旦潜在嵌入对齐,只需少量的 LoRA 微调即可解锁基线模型固有的生成质量。我们在 SANA 和 FLUX.1-Krea 上验证了 DC-Gen 的有效性。由此产生的 DC-Gen-SANA 和 DC-Gen-FLUX 模型在质量上与它们的基线模型相当,但速度显著提升。具体来说,DC-Gen-FLUX 在 NVIDIA H100 GPU 上将 4K 图像生成的延迟降低了 53 倍。当与 NVFP4 SVDQuant 结合使用时,DC-Gen-FLUX 在单个 NVIDIA 5090 GPU 上仅需 3.5 秒即可生成 4K 图像,与基线 FLUX.1-Krea 模型相比,总延迟降低了 138 倍。代码:https://github.com/dc-ai-projects/DC-Gen
查看 arXiv 页面查看 PDF
DC-Gen:通过深度压缩的潜在空间进行训练后扩散加速
DC-Gen:通过深度压缩的潜在空间进行训练后扩散加速
DC-Gen:通过深度压缩的潜在空间进行训练后扩散加速
DC-Gen:通过深度压缩的潜在空间进行训练后扩散加速

评论

Han CaiHan Cai
论文提交者

DC-Gen 是一种新的加速扩散模型框架。DC-Gen 可与任何预训练扩散模型配合使用,通过轻量级后训练将其转移到深度压缩的潜在空间中,从而提高效率。例如,将 DC-Gen 应用于 FLUX.1-Krea-12B 仅需 40 个 H100 GPU 天。由此产生的 DC-Gen-FLUX 提供了与基础模型相同的质量,同时实现了显著的提升——在 H100 上以 4K 分辨率进行推理的速度提高了 53 倍。当与 NVFP4 配对时,DC-Gen-FLUX(20 个采样步长)在单个 NVIDIA 5090 GPU 上仅需 3.5 秒即可生成 4K 图像,与基础 FLUX.1-Krea 模型相比,总延迟减少了 138 倍。