⏶19
PixelFlow:基于流的像素空间生成模型
发表
由
Shoufa Chen 提交

作者: Shoufa Chen, Chongjian Ge, Shilong Zhang,
Peize Sun, Ping Luo

摘要
我们提出了 PixelFlow,一个直接在原始像素空间中运行的图像生成模型家族,这与主要的潜在空间模型形成对比。这种方法通过消除对预训练变分自编码器 (VAE) 的需求,并使整个模型能够端到端训练,从而简化了图像生成过程。通过高效的级联流建模,PixelFlow 在像素空间中实现了可承受的计算成本。在 256x256 ImageNet 类条件图像生成基准测试中,它实现了 1.98 的 FID。定性的文本到图像结果表明,PixelFlow 在图像质量、艺术性和语义控制方面表现出色。我们希望这种新范式将激发并为下一代视觉生成模型开辟新的机遇。代码和模型可在 https://github.com/ShoufaChen/PixelFlow 获取。

PixelFlow,一个图像生成模型系列,直接在原始像素空间中操作,这与主要的潜在空间模型形成对比。