⏶14
通过联合图像特征合成提升生成图像建模
发表
由
Efstathios Karypidis 提交

作者: Theodoros Kouzelis,
Efstathios Karypidis,
Ioannis Kakogeorgiou,
Spyros Gidaris, Nikos Komodakis



摘要
潜在扩散模型(LDMs)在高质量图像生成领域占据主导地位,然而将表示学习与生成建模相结合仍然是一个挑战。我们提出了一种新颖的生成图像建模框架,通过利用扩散模型来联合建模低层图像潜在表示(来自变分自编码器)和高层语义特征(来自预训练的自监督编码器,如 DINO),从而无缝弥合了这一鸿沟。我们的潜在-语义扩散方法学习从纯噪声生成连贯的图像-特征对,显著提升了生成质量和训练效率,同时仅需对标准扩散 Transformer 架构进行最小程度的修改。通过消除对复杂蒸馏目标的依赖,我们的统一设计简化了训练,并解锁了一种强大的新型推理策略:表示引导,该策略利用学到的语义来引导和精修图像生成。在条件和无条件设置下进行评估,我们的方法在图像质量和训练收敛速度方面取得了显著提升,为面向表示的生成建模开辟了一个新的方向。

– 低级图像细节(通过 VAE 潜在空间)
– 高级语义特征(通过 DINOv2)
🔗 一种用于生成图像建模的强大新方法,弥合了生成与表示学习之间的差距。
⚡️在性能/训练效率方面带来了巨大提升,并为表示感知生成建模带来了新范式。
ReDi 基于这样的洞察:某些潜在表示本质上更容易建模,从而实现了一种统一的双空间扩散方法,可以从纯噪声生成连贯的图像-特征对。
将 ReDi 集成到 DiT/SiT 风格的架构中是无缝的:
🔹 对图像潜在空间和语义特征都应用噪声
🔹 将它们融合到一个 token 序列中
🔹 使用标准 DiT/SiT 对两者进行去噪
就是这样。
🔹 合并 Token (MR):高效,保持 token 数量不变
🔹 分离 Token (SP):表达能力更强,计算量约是 MR 的两倍
两者都能提升性能,但 MR 在速度与质量之间达到了最佳平衡点。
ReDi 无需额外的蒸馏损失,只需纯粹的扩散过程,显著简化了训练。此外,它还解锁了表示引导 (RG)——一种新的推理策略,利用学习到的语义来引导和细化图像生成。🎯
训练速度如何?DiT 和 SiT 都获得了巨大提升:
~ 比基线 DiT/SiT 收敛速度快 23 倍。
~ 比 REPA 快 6 倍。🚀
ReDi 带来了最先进的结果,在各个方面都展现出卓越的生成性能。🔥
无条件生成也得到了巨大升级。ReDi + 表示引导 (RG) 几乎弥合了与条件模型之间的差距。例如,采用 ReDi+RG 的无条件 DiT-XL/2 达到了 FID 22.6,接近类别条件 DiT-XL 的 FID 19.5!
我们对 DINOv2 应用了 PCA,以在不占用过多模型容量的情况下保留表达能力。只需少数几个 PC 就足以显著提升生成性能。
论文:https://arxiv.org/abs/2504.16064
代码:https://github.com/zelaki/ReDi