MMTok:多模态覆盖最大化,实现视觉语言模型的推理效率

发表
Sixun DongSixun Dong 提交
作者: Sixun DongSixun Dong, Juhua Hu, Mian Zhang, Ming YinMing Yin, Yanjie Fu, Qi Qian

摘要

视觉语言模型(VLM)通过将视觉输入转换为视觉标记(vision tokens),在理解带有语言指令的视觉内容方面展现出令人印象深刻的性能。然而,视觉标记中的冗余会导致VLM的推理效率下降。尽管已有许多算法被提出用于减少视觉标记的数量,但大多数算法仅使用单一模态的信息(即视觉/文本)进行剪枝,而忽略了视觉语言任务固有的多模态属性。此外,还缺乏一个可以应用于不同模态的通用标准。为了缓解这一限制,在本工作中,我们提出利用视觉和文本标记,通过覆盖度(coverage)标准来选择信息量大的视觉标记。我们首先将子集选择问题构建为最大覆盖问题。之后,对视觉标记的子集进行优化,使其同时覆盖文本标记和原始视觉标记集合。最后,可以采用VLM代理来进一步提高文本标记的质量,以指导视觉标记的剪枝。我们提出的MMTok方法在不同的VLM基准数据集上进行了广泛的评估。比较结果表明,视觉和文本信息是互补的,并且结合多模态信息可以明显优于单一模态基线。此外,在POPE数据集上,根据最大覆盖度标准,我们的方法在LLaVA-NeXT-13B上实现了1.87倍的加速,同时保持了原始性能的98.7%。进一步地,仅使用四个视觉标记,在LLaVA-1.5-7B上仍保留了原始性能的87.7%。这些结果突显了覆盖度在标记选择中的有效性。
查看 arXiv 页面查看 PDF

评论

Sixun DongSixun Dong
论文作者
论文提交者

利用多模态覆盖最大化实现高效的 token 修剪:MMTok 在 H100 上实现了高达 1.87 倍的加速,同时保持了 98.7% 的准确率,并在 POPE 上仅用 4 个视觉 token 就保留了 87.7% 的 F1 分数。

项目页面:https://project.ironieser.cc/mmtok

Ming YinMing Yin
论文作者

工作很出色!