⏶5
蒸馏用于自回归图像生成的语义感知序列
发表
由
Juan A. Rodriguez 提交

作者:
Rishav Pramanik,
Antoine Poupon,
Juan A. Rodriguez, Masih Aminbeidokhti,
David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli



摘要
基于自回归图像块(patch-based)的图像生成技术近期在图像质量和可伸缩性方面展现出具有竞争力的结果。它也很容易集成到视觉-语言模型(Vision-Language models)中并进行扩展。然而,自回归模型在生成图像块时需要一个确定的顺序。虽然基于单词线性顺序的自然顺序对文本生成来说是合理的,但对于图像生成,并不存在固有的生成顺序。传统上,光栅扫描顺序(从左上到右下)被用来指导自回归图像生成模型。在本文中,我们认为这种顺序是次优的,因为它未能尊重图像内容的因果关系:例如,当以日落的视觉描述为条件时,自回归模型可能会在生成太阳之前生成云,尽管云的颜色应该取决于太阳的颜色,反之则不然。在这项工作中,我们首先展示了通过训练一个模型来生成任意给定顺序的图像块,我们可以在生成过程中推断出每个图像块的内容和其位置(即生成顺序)。其次,我们利用这些提取出的顺序来微调这个任意给定顺序的模型,以生成更高质量的图像。通过实验,我们在两个数据集上表明,这种新的生成方法比传统的光栅扫描方法能够生成更好的图像,同时训练成本相似且无需额外标注。


基于自回归图块的图像生成最近在图像质量和可扩展性方面取得了具有竞争力的结果。它也可以轻松地集成到视觉-语言模型中并进行扩展。然而,自回归模型需要一个确定的图块生成顺序。虽然基于词语的自然顺序对于文本生成来说是合理的,但对于图像生成而言,并不存在固有的生成顺序。传统上,栅格扫描顺序(从左上角到右下角)指导着自回归图像生成模型。在本文中,我们认为这种顺序是次优的,因为它未能遵循图像内容的因果关系:例如,当以日落的视觉描述为条件时,自回归模型可能在太阳之前生成云,即使云的颜色应该依赖于太阳的颜色,而非相反。在这项工作中,我们展示了首先通过训练一个模型以任意给定顺序生成图块,我们可以在生成过程中获得每个图块的内容和位置(顺序)。其次,我们使用这些提取的顺序对该any-given-order模型进行微调,以生成质量更好的图像。通过我们的实验,我们在两个数据集上表明,这种新的生成方法生成的图像质量优于传统的栅格扫描方法,同时训练成本相似且无需额外的标注。