InfGen:一种分辨率无关的可扩展图像合成范式

发表
taesiritaesiri 提交
作者: Tao Han, Wanghan XuWanghan Xu, Junchao Gong, Xiaoyu YueXiaoyu Yue, Song Guo, Luping Zhou, Lei Bai

摘要

AI 生成总结
InfGen 是一种替代 VAE 解码器的一步生成器,它能够从固定大小的潜在空间生成任意高分辨率图像,显著降低了计算复杂度和生成时间。
任意分辨率的图像生成能够跨设备提供一致的视觉体验,在生产者和消费者中具有广泛的应用。当前的扩散模型在计算需求上与分辨率呈二次方增长,导致 4K 图像生成延迟超过 100 秒。为了解决这个问题,我们对潜在扩散模型进行了第二代探索,其中扩散模型生成的固定潜在表示被视为内容表示,我们提出使用紧凑的生成潜在表示通过单步生成器解码任意分辨率的图像。因此,我们提出了 InfGen,用新的生成器替换 VAE 解码器,用于从固定大小的潜在表示生成任何分辨率的图像,而无需重新训练扩散模型,这简化了过程,降低了计算复杂度,并且可以应用于使用相同潜在空间的任何模型。实验表明,InfGen 能够将许多模型提升到任意高分辨率时代,同时将 4K 图像生成时间缩短到 10 秒以内。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

任意分辨率图像生成可在各种设备上提供一致的视觉体验,对生产者和消费者都有广泛的应用。目前的扩散模型在分辨率上计算需求呈二次方增长,导致 4K 图像生成延迟超过 100 秒。为解决此问题,我们探索了潜在扩散模型的第二代,将扩散模型生成的固定潜在表示作为内容表示,并提出使用紧凑的生成潜在表示通过一步生成器解码任意分辨率图像。因此,我们提出了 InfGen,用新的生成器替换 VAE 解码器,可以在不重新训练扩散模型的情况下,从固定大小的潜在表示生成任何分辨率的图像,从而简化了过程,降低了计算复杂度,并可应用于任何使用相同潜在空间的模型。实验表明,InfGen 能够将许多模型升级到任意高分辨率时代,同时将 4K 图像生成时间缩短至 10 秒以内。

Markus HeiervangMarkus Heiervang

非常有趣的论文。我想知道这种方法是否也可以用于原生低分辨率图像生成,例如像素艺术。‘可靠探索’的低端是 256,但我想知道是否因为低分辨率图像不受欢迎的假设而未探索低于 256 的情况。真正的任意分辨率也应该能在极低端泛化,对吧?

论文作者
此评论已隐藏。
Wanghan XuWanghan Xu
论文作者

感谢您对我们工作的关注。本文主要关注生成高分辨率图像,我们的实验主要集中在 256 或更高分辨率上。我们的专用解码器就是为此目的设计的;对于较低的分辨率(例如 128),原始 VAE 解码器已经是一个成熟有效的解决方案,因此我们的解码器不是必需的。我们非常赞赏您关于任意尺度应该包含低分辨率图像的观点。我们的模型也支持生成低分辨率图像,因为高分辨率输出总是可以降采样以创建出色的低分辨率版本。