通过自监督预训练推进端到端像素空间生成建模

发表
xiaochonglinghuxiaochonglinghu 提交
作者: Jiachen LeiJiachen Lei, Keli Liu, Julius Berner, Haiming Yu, Hongkai Zheng, Jiahong Wu, Xiangxiang Chu

摘要

像素空间生成模型通常比潜在空间模型更难训练,并且总体表现不如后者,导致性能和效率方面存在持续的差距。在本文中,我们引入了一种新颖的两阶段训练框架,该框架弥合了像素空间扩散模型和一致性模型的这一差距。在第一阶段,我们预训练编码器以从干净的图像中捕获有意义的语义,同时将它们与沿同一确定性采样轨迹的点对齐,该轨迹将点从先验分布演化到数据分布。在第二阶段,我们将编码器与随机初始化的解码器集成,并对完整的模型进行端到端微调,以实现扩散模型和一致性模型。我们的训练框架在 ImageNet 数据集上展现出强大的经验性能。具体来说,我们的扩散模型在 ImageNet-256 上达到了 2.04 的 FID,在 ImageNet-512 上达到了 2.35 的 FID,函数评估次数(NFE)为 75 次,在生成质量和效率方面都远远超过了先前的像素空间方法,同时在可比的训练成本下与领先的基于 VAE 的模型相媲美。此外,在 ImageNet-256 上,我们的一致性模型在单个采样步骤中实现了令人印象深刻的 8.82 FID,显著超越了其潜在空间对应模型。据我们所知,这是第一个在没有依赖预训练 VAE 或扩散模型的情况下,直接在高分辨率图像上成功训练一致性模型的案例。
查看 arXiv 页面查看 PDF

评论

xiaochonglinghuxiaochonglinghu
论文提交者

EPG:无 VAE 的扩散模型。
https://github.com/AMAP-ML/EPG

wangshuaiwangshuai

你好 @jiachenlei,祝贺你的 EPG 模型在像素空间扩散方面取得突破。我是 PixNerd 的作者。此前,Pixelflow 和 PixNerd 已将像素扩散性能推向前沿,分别取得了 1.98 和 1.93 的 FID 分数。虽然这些工作似乎是并发的,但您能否考虑进一步讨论和比较您的 EPG 模型与它们?

PixNerd: https://huggingface.co/papers/2507.23268
Pixelflow: https://huggingface.co/papers/2504.07963