PixelFlow:基于流的像素空间生成模型

发表
Shoufa ChenShoufa Chen 提交
作者: Shoufa Chen, Chongjian Ge, Shilong Zhang, peizesunPeize Sun, Ping Luo

摘要

我们提出了 PixelFlow,一个直接在原始像素空间中运行的图像生成模型家族,这与主要的潜在空间模型形成对比。这种方法通过消除对预训练变分自编码器 (VAE) 的需求,并使整个模型能够端到端训练,从而简化了图像生成过程。通过高效的级联流建模,PixelFlow 在像素空间中实现了可承受的计算成本。在 256x256 ImageNet 类条件图像生成基准测试中,它实现了 1.98 的 FID。定性的文本到图像结果表明,PixelFlow 在图像质量、艺术性和语义控制方面表现出色。我们希望这种新范式将激发并为下一代视觉生成模型开辟新的机遇。代码和模型可在 https://github.com/ShoufaChen/PixelFlow 获取。
查看 arXiv 页面查看 PDF
PixelFlow:基于流的像素空间生成模型

评论

Shoufa ChenShoufa Chen
论文提交者

PixelFlow,一个图像生成模型系列,直接在原始像素空间中操作,这与主要的潜在空间模型形成对比。

danielmomendanielmomen

你们是否从 “视觉自回归建模:通过下一尺度预测实现可扩展的图像生成” (https://arxiv.org/abs/2404.02905) 中获得任何灵感?

Julius DuinJulius Duin

我想讨论的正是这个。我的意思是,很明显他们正在使用不同的机制,因为 pixelflow 在放大步骤之间进行显式去噪,但正如 VAR 展示了如此令人印象深刻的结果,不禁让人怀疑,对于非常相似的机制来说,这是否只是过度杀伤?

Julius DuinJulius Duin

我确实喜欢这个方法。 寻找路径不仅在相同分辨率的分布之间,而且将放大整合到其中听起来非常优雅。 不过,在我看来,由此带来的计算开销会使扩展变得困难,对吧?

S.F.S.F.

听起来像是下一代反卷积,恭喜! 在组合中加入 ControlNets - 它将成为通用用途的杀手级模型,恕我直言