⏶13
DyMU:用于高效 VLM 的动态合并与虚拟解合并
发表
由
AK 提交

作者: Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu
摘要
我们提出了DyMU,一个高效、无需训练的框架,可在保持高任务性能的同时动态降低视觉-语言模型(VLMs)的计算负担。我们的方法包括两个关键组件。首先,动态令牌合并(DToMe)根据图像复杂度合并相似令牌,减少视觉令牌嵌入的数量,解决了视觉Transformer中固定长度输出固有的低效率问题。其次,虚拟令牌解合并(VTU)通过高效重建完整序列的注意力动态来模拟大语言模型(LLMs)的预期令牌序列,从而在无需额外微调的情况下保留下游性能。与以往方法不同,我们的方法能根据图像内容动态调整令牌压缩,并且完全无需训练,使其易于应用于大多数最先进的VLM架构。在图像和视频理解任务上的广泛实验表明,DyMU可以将平均视觉令牌数量减少32%-85%,同时在各种VLM架构(包括最近流行的基于AnyRes的视觉编码器)上实现与全长模型相当的性能。此外,通过定性分析,我们证明DToMe能根据图像复杂度有效调整令牌减少,并且与现有系统不同,它为用户提供了对计算成本更大的控制。项目页面:https://mikewangwzhl.github.io/dymu/。
评论

论文提交者