⏶9
视觉输入可以被压缩吗?一个针对大型多模态模型的视觉令牌压缩基准
发表
由
Kailin Jiang, 蒋凯林 提交
作者: Tianfan Peng, Yuntao Du, Pengzhou Ji, Shijie Dong,
Kailin Jiang, Mingchuan Ma, Yijun Tian, Jinhe Bi, Qian Li, Wei Du, Feng Xiao, Lizhen Cui
摘要
AI 生成总结
UniPruneBench 是一个统一的基准,用于评估多模态 LLM 中的视觉 token 剪枝,提供标准化的协议和系统级指标,以评估各种任务和模型的性能。大型多模态模型(LMMs)通常由于图像编码器引入的大量视觉token而遭受严重的推理效率低下。尽管最近的token压缩方法,如剪枝和合并,在减少冗余方面显示出前景,但它们的评估仍然零散且不一致。在这项工作中,我们提出了UniPruneBench,一个统一且可扩展的用于多模态LLM中视觉token剪枝的基准。UniPruneBench在六个能力维度和十个数据集上提供了标准化协议,涵盖了十种具有代表性的压缩算法和三类LMM(LLaVA-v1.5、Intern-VL3和Qwen2.5-VL)。除了任务准确性之外,它还包含了系统级指标,如运行时和预填充延迟,以提供全面的视图。我们的实验揭示了几个关键发现:(1)随机剪枝是一个出人意料的强大基线,(2)没有单一方法在所有场景中始终优于其他方法,(3)剪枝敏感性在不同任务之间差异显著,其中OCR最脆弱,(4)剪枝比例是影响性能下降的主要因素。我们相信UniPruneBench将为未来高效多模态建模的研究提供可靠的基础。
大型多模态模型(LMM)通常因图像编码器引入的大量视觉token而
遭受严重的推理效率低下问题。尽管最近的token压缩方法,如剪枝和合并,
在减少冗余方面展现了前景,但它们的评估仍然分散且不一致。在本
工作中,我们提出了UniPruneBench,一个统一且可扩展的多模态LLM视觉
token剪枝基准。UniPruneBench在六个能力维度和十个数据集上提供了
标准化协议,涵盖了十种代表性压缩算法和三类LMM(LLaVA-v1.5、
Intern-VL3和Qwen2.5-VL)。除了任务准确性,它还包含了运行时和预
填充延迟等系统级指标,以提供全面的视角。我们的实验揭示了几
个关键发现:(1)随机剪枝是一个出人意料的强大基线,(2)没有单一
方法在所有场景中始终优于其他方法,(3)剪枝敏感性在不同任务之间
差异显著,OCR最易受影响,(4)剪枝率是影响性能下降的主导因素。
我们相信UniPruneBench将为未来高效多模态建模的研究奠定可靠基础。