通过联合图像特征合成提升生成图像建模

发表
Efstathios KarypidisEfstathios Karypidis 提交
作者: Theodoros Kouzelis, Efstathios KarypidisEfstathios Karypidis, Ioannis KakogeorgiouIoannis Kakogeorgiou, Spyros GidarisSpyros Gidaris, Nikos Komodakis

摘要

潜在扩散模型(LDMs)在高质量图像生成领域占据主导地位,然而将表示学习与生成建模相结合仍然是一个挑战。我们提出了一种新颖的生成图像建模框架,通过利用扩散模型来联合建模低层图像潜在表示(来自变分自编码器)和高层语义特征(来自预训练的自监督编码器,如 DINO),从而无缝弥合了这一鸿沟。我们的潜在-语义扩散方法学习从纯噪声生成连贯的图像-特征对,显著提升了生成质量和训练效率,同时仅需对标准扩散 Transformer 架构进行最小程度的修改。通过消除对复杂蒸馏目标的依赖,我们的统一设计简化了训练,并解锁了一种强大的新型推理策略:表示引导,该策略利用学到的语义来引导和精修图像生成。在条件和无条件设置下进行评估,我们的方法在图像质量和训练收敛速度方面取得了显著提升,为面向表示的生成建模开辟了一个新的方向。
查看 arXiv 页面查看 PDF
通过联合图像特征合成提升生成图像建模

评论

Efstathios KarypidisEfstathios Karypidis
论文作者
论文提交者
  1. ReDi (表示扩散) 是一种新的生成方法,它利用扩散模型共同捕获:

– 低级图像细节(通过 VAE 潜在空间)

– 高级语义特征(通过 DINOv2)

  1. 结果如何?

🔗 一种用于生成图像建模的强大新方法,弥合了生成与表示学习之间的差距。

⚡️在性能/训练效率方面带来了巨大提升,并为表示感知生成建模带来了新范式。

  1. ReDi 基于这样的洞察:某些潜在表示本质上更容易建模,从而实现了一种统一的双空间扩散方法,可以从纯噪声生成连贯的图像-特征对。

  2. 将 ReDi 集成到 DiT/SiT 风格的架构中是无缝的:

🔹 对图像潜在空间和语义特征都应用噪声

🔹 将它们融合到一个 token 序列中

🔹 使用标准 DiT/SiT 对两者进行去噪

就是这样。

  1. 我们探索了两种融合图像潜在空间和特征 token 的方法:

🔹 合并 Token (MR):高效,保持 token 数量不变

🔹 分离 Token (SP):表达能力更强,计算量约是 MR 的两倍

两者都能提升性能,但 MR 在速度与质量之间达到了最佳平衡点。

  1. ReDi 无需额外的蒸馏损失,只需纯粹的扩散过程,显著简化了训练。此外,它还解锁了表示引导 (RG)——一种新的推理策略,利用学习到的语义来引导和细化图像生成。🎯

  2. 训练速度如何?DiT 和 SiT 都获得了巨大提升:

~ 比基线 DiT/SiT 收敛速度快 23 倍。

~ 比 REPA 快 6 倍。🚀

  1. ReDi 带来了最先进的结果,在各个方面都展现出卓越的生成性能。🔥

  2. 无条件生成也得到了巨大升级。ReDi + 表示引导 (RG) 几乎弥合了与条件模型之间的差距。例如,采用 ReDi+RG 的无条件 DiT-XL/2 达到了 FID 22.6,接近类别条件 DiT-XL 的 FID 19.5!

  3. 我们对 DINOv2 应用了 PCA,以在不占用过多模型容量的情况下保留表达能力。只需少数几个 PC 就足以显著提升生成性能。

论文:https://arxiv.org/abs/2504.16064

代码:https://github.com/zelaki/ReDi