压缩一瞥:大型视觉语言模型的动态视觉令牌修剪

发表
Boyuan SunBoyuan Sun 提交
作者: Quan-Sheng ZengQuan-Sheng Zeng, Yunheng Li, Qilong Wang, Peng-Tao Jiang, Zuxuan Wu, Ming-Ming Cheng, Qibin Hou

摘要

视觉令牌压缩对于大型视觉-语言模型(LVLMs)有效处理高分辨率输入至关重要。现有方法通常采用固定的压缩比,无法适应不同复杂度的场景,经常导致不精确的修剪,丢弃信息丰富的视觉令牌并导致模型性能下降。为了解决这个问题,我们引入了一个受人类认知启发的动态修剪框架 GlimpsePrune。它采用数据驱动的“一瞥”,并在答案生成之前在一次前向传播中修剪不相关的视觉令牌。这种方法修剪了 92.6% 的视觉令牌,同时在自由形式的 VQA 任务中平均完全保留了基线性能。计算成本的降低也使得更有效的微调成为可能:增强的 GlimpsePrune+ 实现了基线性能的 110%,同时保持了相似的高修剪率。我们的工作为构建更强大、更高效的 LVLMs 开辟了新途径。
查看 arXiv 页面查看 PDF

评论

Boyuan SunBoyuan Sun
论文提交者

GlimpsePrune 是一种专为大型视觉-语言模型(LVLM)设计的动态视觉 token 剪枝框架。通过少量数据(例如,在 20K GQA 数据上不到 1 小时)的快速训练,GlimpsePrune 使 Qwen2.5-VL-7B 能够在生成响应之前平均剪枝 92.6% 的视觉 token,同时保持与原始模型相当的性能。