PixNerd:像素神经场扩散

发表
wangshuaiwangshuai 提交
作者: wangshuaiShuai Wang, Ziteng Gao, zhu chenhuiChenhui Zhu, Weilin Huang, Limin Wang

摘要

当前扩散式变换器(diffusion transformers)的成功在很大程度上依赖于由预训练的变分自编码器(VAE)所塑造的压缩潜在空间。然而,这种两阶段训练范式不可避免地会引入累积误差和解码失真。为了解决上述问题,研究人员们回归到像素空间,但代价是复杂的级联流程和增加的词元复杂度。与他们的努力不同,我们提出使用神经场对逐块解码进行建模,并提出了一种单尺度、单阶段、高效、端到端的解决方案,命名为像素神经场扩散(Pixel Neural Field Diffusion, PixelNerd)。得益于PixNerd中高效的神经场表示,我们直接在ImageNet 256x256数据集上实现了2.15的FID,在ImageNet 512x512数据集上实现了2.84的FID,而无需任何复杂的级联流程或VAE。我们还将PixNerd框架扩展到文本到图像(text-to-image)应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的有竞争力的总分,在DPG基准测试中取得了80.9的总分。
查看 arXiv 页面查看 PDF

评论

wangshuaiwangshuai
论文作者
论文提交者

一种新的基于神经场的快速像素扩散Transformer!

TL;DR:当前扩散Transformer的成功在很大程度上取决于预训练变分自编码器(VAE)所形成的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了累积误差和解码伪影。为了解决上述问题,研究人员回到像素空间,但代价是复杂的级联管道和增加的token复杂度。与他们的努力相反,我们提出使用神经场建模补丁级解码,并提出一种单尺度、单阶段、高效、端到端解决方案,命名为像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们直接在ImageNet 256×256上实现了2.15 FID,在ImageNet 512×512上实现了2.84 FID,无需任何复杂的级联管道或VAE。我们还将PixNerd框架扩展到文本到图像应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的竞争性总分,在DPG基准测试中取得了80.9的总分。

wangshuaiwangshuai
论文作者
论文提交者

文本到图像在线空间:https://huggingface.co/spaces/MCG-NJU/PixNerd

wangshuaiwangshuai
论文作者
论文提交者
推理时间统计修订

image.png

模型 推理训练 1张图像 1步 内存 (GB) 速度 (秒/迭代) 内存 (GB) SiT-L/2(VAE-f8) 0.51秒 0.0097秒 2.9 0.30 18.4 Baseline-L/16 0.48秒 0.0097秒 2.1 0.18 18 PixNerd-L/16 0.51秒 0.010秒 2.1 0.19 22

对这个错误深感抱歉,SiT-L/2和Baseline-L的单步推理时间少了一个零(0.097秒 vs 0.0097秒)。PixNerd和Baseline的单步推理时间接近。

wangshuaiwangshuai
论文作者
论文提交者

由于arxiv论文已经更新,所以我关闭了这个问题!请随意打开!