CoreMatching:一种用于全面加速视觉-语言模型的、带有 Token 和神经元剪枝的协同自适应稀疏推理框架

发表
WangWang 提交
作者: Qinsi Wang, Hancheng YeHancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian LinYueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen

摘要

视觉-语言模型 (VLMs) 在各种任务中表现出色,但在时间和内存方面面临高昂的推理成本。Token 稀疏性减轻了 token 使用效率低下的问题,而神经元稀疏性减少了高维计算,两者都为提高效率提供了有前景的解决方案。最近,这两种稀疏性范式基本并行发展,导致人们普遍认为它们是独立运作的。然而,一个基本但尚未充分探索的问题仍然存在:它们真的独立运作吗,还是存在更深层次的潜在相互作用尚未被发现?在本文中,我们首次对这个问题进行了全面的研究。通过引入和分析核心神经元和核心 tokens 之间的匹配机制,我们发现推理的关键神经元和 tokens 相互影响和强化。基于这一洞察,我们提出了 CoreMatching,一个协同自适应稀疏推理框架,它利用 token 和神经元稀疏性之间的协同作用来提高推理效率。通过理论分析和效率评估,我们证明了所提出的方法在十个图像理解任务和三种硬件设备上超越了最先进的基线。值得注意的是,在 NVIDIA Titan Xp 上,它实现了 5 倍的 FLOPs 降低和 10 倍的整体加速。代码已在 https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main 发布。
查看 arXiv 页面查看 PDF

评论

WangWang
论文提交者

ICML 2025。我们首次从理论角度提出了一个最优的标记评估指标。

overall.png