⏶49
PixNerd:像素神经场扩散
发表
由
wangshuai 提交
作者:
Shuai Wang, Ziteng Gao,
Chenhui Zhu, Weilin Huang, Limin Wang
摘要
当前扩散式变换器(diffusion transformers)的成功在很大程度上依赖于由预训练的变分自编码器(VAE)所塑造的压缩潜在空间。然而,这种两阶段训练范式不可避免地会引入累积误差和解码失真。为了解决上述问题,研究人员们回归到像素空间,但代价是复杂的级联流程和增加的词元复杂度。与他们的努力不同,我们提出使用神经场对逐块解码进行建模,并提出了一种单尺度、单阶段、高效、端到端的解决方案,命名为像素神经场扩散(Pixel Neural Field Diffusion, PixelNerd)。得益于PixNerd中高效的神经场表示,我们直接在ImageNet 256x256数据集上实现了2.15的FID,在ImageNet 512x512数据集上实现了2.84的FID,而无需任何复杂的级联流程或VAE。我们还将PixNerd框架扩展到文本到图像(text-to-image)应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的有竞争力的总分,在DPG基准测试中取得了80.9的总分。
一种新的基于神经场的快速像素扩散Transformer!
TL;DR:当前扩散Transformer的成功在很大程度上取决于预训练变分自编码器(VAE)所形成的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了累积误差和解码伪影。为了解决上述问题,研究人员回到像素空间,但代价是复杂的级联管道和增加的token复杂度。与他们的努力相反,我们提出使用神经场建模补丁级解码,并提出一种单尺度、单阶段、高效、端到端解决方案,命名为像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们直接在ImageNet 256×256上实现了2.15 FID,在ImageNet 512×512上实现了2.84 FID,无需任何复杂的级联管道或VAE。我们还将PixNerd框架扩展到文本到图像应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的竞争性总分,在DPG基准测试中取得了80.9的总分。