⏶30
InfGen:一种分辨率无关的可扩展图像合成范式
发表
由
taesiri 提交

作者: Tao Han,
Wanghan Xu, Junchao Gong,
Xiaoyu Yue, Song Guo, Luping Zhou, Lei Bai

摘要
AI 生成总结
InfGen 是一种替代 VAE 解码器的一步生成器,它能够从固定大小的潜在空间生成任意高分辨率图像,显著降低了计算复杂度和生成时间。任意分辨率的图像生成能够跨设备提供一致的视觉体验,在生产者和消费者中具有广泛的应用。当前的扩散模型在计算需求上与分辨率呈二次方增长,导致 4K 图像生成延迟超过 100 秒。为了解决这个问题,我们对潜在扩散模型进行了第二代探索,其中扩散模型生成的固定潜在表示被视为内容表示,我们提出使用紧凑的生成潜在表示通过单步生成器解码任意分辨率的图像。因此,我们提出了 InfGen,用新的生成器替换 VAE 解码器,用于从固定大小的潜在表示生成任何分辨率的图像,而无需重新训练扩散模型,这简化了过程,降低了计算复杂度,并且可以应用于使用相同潜在空间的任何模型。实验表明,InfGen 能够将许多模型提升到任意高分辨率时代,同时将 4K 图像生成时间缩短到 10 秒以内。
任意分辨率图像生成可在各种设备上提供一致的视觉体验,对生产者和消费者都有广泛的应用。目前的扩散模型在分辨率上计算需求呈二次方增长,导致 4K 图像生成延迟超过 100 秒。为解决此问题,我们探索了潜在扩散模型的第二代,将扩散模型生成的固定潜在表示作为内容表示,并提出使用紧凑的生成潜在表示通过一步生成器解码任意分辨率图像。因此,我们提出了 InfGen,用新的生成器替换 VAE 解码器,可以在不重新训练扩散模型的情况下,从固定大小的潜在表示生成任何分辨率的图像,从而简化了过程,降低了计算复杂度,并可应用于任何使用相同潜在空间的模型。实验表明,InfGen 能够将许多模型升级到任意高分辨率时代,同时将 4K 图像生成时间缩短至 10 秒以内。