⏶18
ZipIR:用于高分辨率图像复原的潜在金字塔扩散Transformer
04月11日发表
04月14日由
Yongsheng Yu 提交
作者:
Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
摘要
生成模型的最新进展显着提高了图像修复能力,特别是通过强大的扩散模型,这些模型能够出色地恢复语义细节和局部保真度。然而,由于长程注意力机制的计算需求,在超高分辨率下部署这些模型面临着质量和效率之间的关键权衡。为了解决这个问题,我们推出了 ZipIR,这是一个新颖的框架,旨在增强高分辨率图像修复的效率、可扩展性和长程建模能力。ZipIR 采用高度压缩的潜在表示,将图像压缩 32 倍,有效地减少了空间 tokens 的数量,并使得能够使用像 Diffusion Transformer (DiT) 这样高容量的模型。为了实现这个目标,我们提出了一个潜在金字塔 VAE (LP-VAE) 设计,将潜在空间结构化为子带,以简化扩散训练。ZipIR 在高达 2K 分辨率的完整图像上进行训练,超越了现有的基于扩散的方法,在从严重退化的输入中恢复高分辨率图像方面提供了无与伦比的速度和质量。

32 倍压缩的潜在空间和一个从头开始训练的 3B DiT,用于高分辨率图像超分辨率,支持高达 8192×8192 的输出。