⏶20
端到端视觉分词器调优
发表
由
Fan Zhang 提交
作者:
Wenxuan Wang,
Fan Zhang,
Yufeng Cui,
Haiwen Diao,
Zhuoyan Luo, Huchuan Lu, Jing Liu,
Xinlong Wang

摘要
现有的视觉分词 (vision tokenization) 方法将视觉分词器 (vision tokenizers) 的优化与下游训练分离开来,暗示假设视觉分词可以很好地泛化到各种任务,例如图像生成和视觉问答。针对低层重建优化的视觉分词器对于需要不同表示和语义的下游任务是不可知的 (agnostic)。这种解耦范式引入了一个关键的错位 (misalignment):视觉分词的损失可能成为目标任务的表示瓶颈。例如,对给定图像中的文本进行分词时出现的错误会导致识别或生成这些文本时结果不佳。为了解决这个问题,我们提出了 ETT,这是一种端到端视觉分词器调优方法,它实现了视觉分词和目标自回归任务之间的联合优化。与之前仅使用固定 (frozen) 视觉分词器离散索引的自回归模型不同,ETT 利用了分词器码本 (codebook) 的视觉嵌入,并通过重建和字幕生成目标对视觉分词器进行端到端优化。ETT 可以无缝集成到现有的训练流水线中,只需进行最小的架构修改。我们的 ETT 实现和集成都很简单,无需调整所使用的大型语言模型的原始码本或架构。大量实验表明,我们提出的端到端视觉分词器调优解锁了显著的性能提升,与固定分词器基线相比,在多模态理解和视觉生成任务中提高了 2-6%,同时保留了原始的重建能力。我们希望这种非常简单而强大的方法能够赋能除了图像生成和理解之外的多模态基础模型。

现有的视觉分词方法将视觉分词器的优化与下游训练隔离开来,隐式地假设视觉 token 可以在各种任务中泛化。针对低级重建优化的视觉分词器对需要不同表示和语义的下游任务是不可知的。我们提出了 ETT,一种端到端的视觉分词器微调方法,该方法使得视觉分词与目标自回归任务之间能够进行联合优化,带来了显著的性能提升,例如,在多模态理解和视觉生成任务中提升 2-6%。