ViCO:一种面向语义感知动态高分辨率的训练策略

发表
Long CuiLong Cui 提交
作者: Long Cui, Weiyun Wang, Jie Shao, Zichen WenZichen Wen, Gen Luo, Linfeng Zhang, Yanting Zhang, Yu Qiao, Wenhai Wang

摘要

现有的多模态大型语言模型(MLLMs)由于图像输入引入了额外的视觉 token,导致推理成本增加。 在本研究中,我们提出了视觉一致性学习(ViCO),一种新颖的训练算法,使模型能够使用不同数量的视觉 token 来表示具有不同语义复杂度的图像。 我们方法的核心思想是采用多个 MLP 连接器,每个连接器具有不同的图像压缩比,根据图像的语义复杂度对视觉 token 进行降采样。 在训练过程中,我们最小化在不同 MLP 连接器上条件化响应之间的 KL 散度。 在推理时,我们引入了一个图像路由器,称为视觉分辨率路由器(ViR),它为每个图像块自动选择合适的压缩率。 与现有的动态高分辨率策略(根据图像分辨率调整视觉 token 数量)相比,我们的方法根据语义复杂度动态调整视觉 token 的数量。 实验结果表明,我们的方法可以将视觉 token 的数量减少多达 50%,同时保持模型在感知、推理和 OCR 方面的能力。 我们希望这项工作能够为开发更高效的 MLLMs 做出贡献。代码和模型将发布,以促进未来的研究。
查看 arXiv 页面查看 PDF

评论

Long CuiLong Cui
论文提交者

现有的多模态大语言模型(MLLMs)由于图像输入引入了过多的视觉 token,面临着高推理成本。为了解决这个问题,我们提出了 Visual Consistency Learning (ViCO),一种新颖的训练算法,允许模型使用不同数量的视觉 token 来表示具有不同语义复杂度的图像。具体来说,ViCO 采用具有不同图像压缩比的多个 MLP 连接器,根据每张图像的语义复杂度对视觉 token 进行下采样,并在训练期间最小化以这些连接器为条件的模型响应之间的 KL 散度。在推理时,Visual Resolution Router (ViR) 会自动为每个图像块选择最佳的压缩率。与之前根据图像分辨率调整视觉 token 的动态高分辨率方法不同,ViCO 根据语义复杂度来调整 token 分配。实验表明,ViCO 在不损害感知、推理或 OCR 性能的情况下,将视觉 token 减少了高达 50%,为更高效的 MLLMs 铺平了道路。