⏶14

通过联合图像特征合成提升生成图像建模

04月22日发表

04月25日由 Efstathios Karypidis 提交

作者: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis

摘要

潜在扩散模型（LDMs）在高质量图像生成领域占据主导地位，然而将表示学习与生成建模相结合仍然是一个挑战。我们提出了一种新颖的生成图像建模框架，通过利用扩散模型来联合建模低层图像潜在表示（来自变分自编码器）和高层语义特征（来自预训练的自监督编码器，如 DINO），从而无缝弥合了这一鸿沟。我们的潜在-语义扩散方法学习从纯噪声生成连贯的图像-特征对，显著提升了生成质量和训练效率，同时仅需对标准扩散 Transformer 架构进行最小程度的修改。通过消除对复杂蒸馏目标的依赖，我们的统一设计简化了训练，并解锁了一种强大的新型推理策略：表示引导，该策略利用学到的语义来引导和精修图像生成。在条件和无条件设置下进行评估，我们的方法在图像质量和训练收敛速度方面取得了显著提升，为面向表示的生成建模开辟了一个新的方向。

查看 arXiv 页面查看 PDF

Efstathios Karypidis

论文作者

论文提交者

ReDi (表示扩散) 是一种新的生成方法，它利用扩散模型共同捕获：

– 低级图像细节（通过 VAE 潜在空间）

– 高级语义特征（通过 DINOv2）

结果如何？

🔗 一种用于生成图像建模的强大新方法，弥合了生成与表示学习之间的差距。

⚡️在性能/训练效率方面带来了巨大提升，并为表示感知生成建模带来了新范式。

ReDi 基于这样的洞察：某些潜在表示本质上更容易建模，从而实现了一种统一的双空间扩散方法，可以从纯噪声生成连贯的图像-特征对。
将 ReDi 集成到 DiT/SiT 风格的架构中是无缝的：

🔹 对图像潜在空间和语义特征都应用噪声

🔹 将它们融合到一个 token 序列中

🔹 使用标准 DiT/SiT 对两者进行去噪

就是这样。

我们探索了两种融合图像潜在空间和特征 token 的方法：

🔹 合并 Token (MR)：高效，保持 token 数量不变

🔹 分离 Token (SP)：表达能力更强，计算量约是 MR 的两倍

两者都能提升性能，但 MR 在速度与质量之间达到了最佳平衡点。

ReDi 无需额外的蒸馏损失，只需纯粹的扩散过程，显著简化了训练。此外，它还解锁了表示引导 (RG)——一种新的推理策略，利用学习到的语义来引导和细化图像生成。🎯
训练速度如何？DiT 和 SiT 都获得了巨大提升：

~ 比基线 DiT/SiT 收敛速度快 23 倍。

~ 比 REPA 快 6 倍。🚀

ReDi 带来了最先进的结果，在各个方面都展现出卓越的生成性能。🔥
无条件生成也得到了巨大升级。ReDi + 表示引导 (RG) 几乎弥合了与条件模型之间的差距。例如，采用 ReDi+RG 的无条件 DiT-XL/2 达到了 FID 22.6，接近类别条件 DiT-XL 的 FID 19.5！
我们对 DINOv2 应用了 PCA，以在不占用过多模型容量的情况下保留表达能力。只需少数几个 PC 就足以显著提升生成性能。

论文：https://arxiv.org/abs/2504.16064

代码：https://github.com/zelaki/ReDi

通过联合图像特征合成提升生成图像建模

摘要

评论