⏶17
原生分辨率图像合成
发表
由
Yiyuan Zhang 提交

作者:
Zidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang
摘要
我们引入了原生分辨率图像合成,这是一种新颖的生成建模范式,能够以任意分辨率和长宽比合成图像。这种方法通过原生处理可变长度的视觉标记克服了传统固定分辨率、方形图像方法的局限性,这是传统技术面临的核心挑战。为此,我们引入了原生分辨率扩散 Transformer (NiT),这是一种旨在在其去噪过程中明确建模不同分辨率和长宽比的架构。NiT 不受固定格式的约束,从涵盖广泛分辨率和长宽比的图像中学习内在视觉分布。值得注意的是,单个 NiT 模型同时在 ImageNet-256x256 和 512x512 基准上取得了最先进的性能。令人惊讶的是,类似于高级大型语言模型中强大的零样本能力,仅在 ImageNet 上训练的 NiT 展示了出色的零样本泛化性能。它成功地在以前未见过的高分辨率(例如,1536 x 1536)和各种长宽比(例如,16:9、3:1、4:3)下生成高保真图像,如图 1 所示。这些发现表明,原生分辨率建模作为视觉生成建模和高级 LLM 方法之间的桥梁具有巨大潜力。

我们引入了原生分辨率图像合成,这是一种新颖的生成建模范式,能够以任意分辨率和宽高比合成图像。尽管仅在ImageNet上训练,我们的模型仍表现出卓越的零样本泛化性能。它成功生成了以前未见过的高分辨率(例如,1536 x 1536)和多样宽高比(例如,16:9, 3:1, 4:3)的高保真图像,如图1所示。这些发现表明原生分辨率建模作为视觉生成建模和高级LLM方法之间桥梁的巨大潜力。