⏶49

PixNerd：像素神经场扩散

07月31日发表

08月04日由 wangshuai 提交

作者: Shuai Wang, Ziteng Gao, zhu chenhui Chenhui Zhu, Weilin Huang, Limin Wang

摘要

当前扩散式变换器（diffusion transformers）的成功在很大程度上依赖于由预训练的变分自编码器（VAE）所塑造的压缩潜在空间。然而，这种两阶段训练范式不可避免地会引入累积误差和解码失真。为了解决上述问题，研究人员们回归到像素空间，但代价是复杂的级联流程和增加的词元复杂度。与他们的努力不同，我们提出使用神经场对逐块解码进行建模，并提出了一种单尺度、单阶段、高效、端到端的解决方案，命名为像素神经场扩散（Pixel Neural Field Diffusion, PixelNerd）。得益于PixNerd中高效的神经场表示，我们直接在ImageNet 256x256数据集上实现了2.15的FID，在ImageNet 512x512数据集上实现了2.84的FID，而无需任何复杂的级联流程或VAE。我们还将PixNerd框架扩展到文本到图像（text-to-image）应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的有竞争力的总分，在DPG基准测试中取得了80.9的总分。

查看 arXiv 页面查看 PDF

wangshuai

论文作者

论文提交者

一种新的基于神经场的快速像素扩散Transformer！

TL;DR：当前扩散Transformer的成功在很大程度上取决于预训练变分自编码器（VAE）所形成的压缩潜在空间。然而，这种两阶段训练范式不可避免地引入了累积误差和解码伪影。为了解决上述问题，研究人员回到像素空间，但代价是复杂的级联管道和增加的token复杂度。与他们的努力相反，我们提出使用神经场建模补丁级解码，并提出一种单尺度、单阶段、高效、端到端解决方案，命名为像素神经场扩散（PixelNerd）。得益于PixNerd中高效的神经场表示，我们直接在ImageNet 256×256上实现了2.15 FID，在ImageNet 512×512上实现了2.84 FID，无需任何复杂的级联管道或VAE。我们还将PixNerd框架扩展到文本到图像应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的竞争性总分，在DPG基准测试中取得了80.9的总分。

wangshuai

论文作者

论文提交者

文本到图像在线空间：https://huggingface.co/spaces/MCG-NJU/PixNerd

wangshuai

论文作者

论文提交者

推理时间统计修订

模型推理训练 1张图像 1步内存 (GB) 速度 (秒/迭代) 内存 (GB) SiT-L/2(VAE-f8) 0.51秒 0.0097秒 2.9 0.30 18.4 Baseline-L/16 0.48秒 0.0097秒 2.1 0.18 18 PixNerd-L/16 0.51秒 0.010秒 2.1 0.19 22

对这个错误深感抱歉，SiT-L/2和Baseline-L的单步推理时间少了一个零（0.097秒 vs 0.0097秒）。PixNerd和Baseline的单步推理时间接近。

wangshuai

论文作者

论文提交者

由于arxiv论文已经更新，所以我关闭了这个问题！请随意打开！

PixNerd：像素神经场扩散

摘要

评论