将自监督表示作为潜在空间进行高效生成

发表
Ming GuiMing Gui 提交
作者: Ming GuiMing Gui, Johannes Schusterbauer, Timy Phan, Felix Krause, Josh Susskind, Miguel Angel Bautista, Björn Ommer

摘要

AI 生成总结
一个使用来自自监督视觉 Transformer 的单个潜在令牌的生成建模框架,在图像和文本到图像合成方面取得了具有竞争力的结果,并降低了训练成本。
我们提出了一种生成建模框架——表示分词器(RepTok),该框架使用自监督视觉Transformer获得的单个连续潜在令牌来表示图像。我们基于预训练的SSL编码器,仅微调语义令牌嵌入,并将其与使用标准流匹配目标联合训练的生成解码器配对。这种适配使令牌丰富了低级、与重建相关的细节,从而实现了忠实的图像重建。为了保留原始SSL空间有利的几何结构,我们添加了一个余弦相似度损失来正则化适配后的令牌,确保潜在空间保持平滑且适合生成。我们的单令牌公式消除了二维潜在空间的空间冗余,并显著降低了训练成本。尽管RepTok简单高效,但在条件ImageNet生成方面取得了有竞争力的结果,并且自然地扩展到文本到图像合成,在极度有限的训练预算下,在MS-COCO上达到了有竞争力的零样本性能。我们的研究结果突出了微调SSL表示作为高效生成模型的紧凑且有效的潜在空间的潜力。
查看 arXiv 页面查看 PDF

评论

Ming GuiMing Gui
论文作者
论文提交者

我们引入了表示令牌化器(RepTok),这是一个生成式建模框架,它使用从自监督视觉 Transformer 中获得的单个连续潜在令牌来表示图像。在预训练的 SSL 编码器的基础上,我们仅对语义令牌嵌入进行微调,并将其与使用标准流匹配目标联合训练的生成式解码器配对。这种适应性使令牌能够获得低级、与重建相关的细节,从而实现逼真的图像重建。为了保留原始 SSL 空间有利的几何形状,我们添加了一个余弦相似度损失来正则化适应后的令牌,确保潜在空间保持平滑且适合生成。我们的单令牌公式消除了二维潜在空间的空间冗余,并显著降低了训练成本。尽管 RepTok 简单高效,但在条件 ImageNet 生成方面取得了有竞争力的结果,并且自然地扩展到文本到图像合成,在极其有限的训练预算下,在 MS-COCO 上达到了有竞争力的零样本性能。我们的研究结果突显了微调的 SSL 表示作为高效生成模型的紧凑且有效的潜在空间的潜力。我们在 https://github.com/CompVis/RepTok 发布了我们的代码。