视觉基础模型:用于自回归图像生成的有效视觉分词器

发表
Xin WenXin Wen 提交
作者: Anlin Zheng, Xin WenXin Wen, xuanyang zhangXuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, xiaojuan qiXiaojuan Qi

摘要

利用预训练视觉基础模型强大的表示能力——这些模型传统上用于视觉理解——我们探索了一个新颖的方向:直接在这些模型之上构建图像分词器(image tokenizer),这是一个很大程度上未被充分探索的领域。具体来说,我们使用一个冻结的视觉基础模型作为我们分词器的编码器。为了提高其有效性,我们引入了两个关键组件:(1) 一个区域自适应量化框架,用于减少常规2D网格上预训练特征的冗余;(2) 一个语义重建目标,用于将分词器的输出与基础模型的表示对齐,以保持语义保真度。基于这些设计,我们提出的图像分词器VFMTok在图像重建和生成质量方面取得了显著改进,同时还提高了分词效率。它进一步提升了自回归(AR)生成——在ImageNet基准上实现了2.07的gFID,同时将模型收敛速度提高了三倍,并且无需分类器自由指导(CFG)即可实现高保真度的类别条件合成。相关代码将公开发布,以回馈社区。
查看 arXiv 页面查看 PDF

评论

Xin WenXin Wen
论文作者
论文提交者

视觉基础模型作为自回归图像生成的有效视觉分词器