⏶29
视觉作为一种方言:通过文本对齐表示统一视觉理解与生成
发表
由
Jiaming Han 提交

作者:
Jiaming Han, Hao Chen, Yang Zhao,
Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He,
Xiangyu Yue, Lu Jiang

摘要
本文提出了一种多模态框架,旨在将视觉理解和生成统一到一个共享的离散语义表示中。其核心是文本对齐分词器(TA-Tok),它利用从大语言模型(LLM)词汇表投影的文本对齐码本将图像转换为离散标记。通过将视觉和文本整合到一个具有扩展词汇表的统一空间中,我们的多模态LLM Tar能够通过共享接口实现跨模态输入和输出,而无需特定模态设计。此外,我们提出了尺度自适应编码和解码,以平衡效率和视觉细节,并结合生成式反分词器以生成高保真视觉输出。为了满足多样化的解码需求,我们利用了两种互补的反分词器:一种快速自回归模型和一种基于扩散的模型。为了增强模态融合,我们研究了高级预训练任务,展示了在视觉理解和生成方面的改进。跨基准的实验表明,Tar匹配或超越了现有的多模态LLM方法,实现了更快的收敛和更高的训练效率。代码、模型和数据可在https://tar.csuhan.com获取
项目页面: https://tar.csuhan.com