下一视觉粒度生成

发表
Yikai WangYikai Wang 提交
作者: Yikai WangYikai Wang, Zhouxia WangZhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

摘要

我们提出了一种新颖的图像生成方法,通过将图像分解为结构化的序列。在该序列中,每个元素具有相同的空间分辨率,但在使用的唯一标记数量上有所不同,从而捕获不同层次的视觉粒度。图像生成通过我们新引入的“下一视觉粒度”(NVG)生成框架进行。该框架从一张空图像开始,逐步对其进行完善,以结构化的方式从全局布局到精细细节,生成视觉粒度序列。这种迭代过程编码了一种分层的、多层级的表示,可以在多个粒度级别上对生成过程进行细粒度控制。我们针对ImageNet数据集上的类别条件图像生成训练了一系列NVG模型,并观察到清晰的缩放行为。与VAR系列相比,NVG在FID分数方面始终优于它(3.30 -> 3.03,2.57 -> 2.44,2.09 -> 2.06)。我们还进行了广泛的分析,以展示NVG框架的能力和潜力。我们的代码和模型将发布。
查看 arXiv 页面查看 PDF

评论

Yikai WangYikai Wang
论文作者
论文提交者

项目主页: https://yikai-wang.github.io/nvg/

代码 (4~8 周内发布): https://github.com/Yikai-Wang/nvg

RICARTE ALVES DE SOUZA JUNIORRICARTE ALVES DE SOUZA JUNIOR

好的