无需变分自编码器的潜在扩散模型

发表
Shi MingleiShi Minglei 提交
作者: Minglei Shi, Haolin WangHaolin Wang, Wenzhao Zheng, Ziyang Yuan, Xiaoshi Wu, Xintao Wang, Pengfei Wan, Jie Zhou, Jiwen Lu

摘要

AI 生成总结
SVG 是一种新颖的、没有 VAE 的潜在扩散模型,它使用自监督表示来实现高效的训练、少步采样以及具有语义和判别能力的生成高质量视觉效果。
基于扩散的视觉生成方面的最新进展在很大程度上依赖于具有变分自编码器 (VAE) 的潜在扩散模型。虽然对于高保真合成有效,但这种 VAE+扩散范式存在训练效率低下、推理缓慢以及泛化到更广泛视觉任务能力差的问题。这些问题源于 VAE 潜在空间的一个关键限制:缺乏清晰的语义分离和强大的判别结构。我们的分析证实,这些属性不仅对于感知和理解任务至关重要,而且对于潜在扩散模型的稳定高效训练也至关重要。受此洞察的启发,我们引入了 SVG,一个不带变分自编码器的新型潜在扩散模型,它利用自监督表示进行视觉生成。SVG 利用冻结的 DINO 特征构建了一个具有清晰语义可判性的特征空间,同时一个轻量级的残差分支捕获精细细节以实现高保真重建。扩散模型直接在这个语义结构化的潜在空间上进行训练,以促进更有效的学习。因此,SVG 实现了加速的扩散训练,支持少步采样,并提高了生成质量。实验结果进一步表明,SVG 保留了底层自监督表示的语义和判别能力,为实现通用、高质量的视觉表示提供了一条有原则的途径。
查看 arXiv 页面查看 PDF

评论

Shi MingleiShi Minglei
论文提交者

我们介绍了 SVG(用于视觉生成的自监督表示),这是一个全新的潜在扩散模型(LDM)范式,完全摒弃了传统的变分自编码器(VAE)。