⏶19

HoliTom: 用于快速视频大型语言模型的整体式 token 合并

05月27日发表

05月28日由 Sicheng Feng 提交

作者: Kele Shao, Keda Tao, Can Qin, Haoxuan You, yangsui Yang Sui, Huan Wang

摘要

视频大型语言模型（video LLMs）在视频理解方面表现出色，但由于冗余的视频 tokens，面临显著的计算效率低下问题。现有的 token 剪枝方法提供了解决方案。然而，在 LLM 内部操作的方法（inner-LLM 剪枝），如 FastV，在浅层会产生固有的计算开销。相比之下，在 LLM 之前执行 token 剪枝的方法（outer-LLM 剪枝）主要解决单个帧或有限时间窗口内的空间冗余，忽略了跨更长视频序列的关键全局时间动态和相关性。这导致次优的时空缩减，并且未能充分利用视频的可压缩性。至关重要的是，结合这些策略的协同潜力和相互影响仍未被探索。为了进一步减少冗余，我们引入了 HoliTom，这是一种无需训练的全新整体 token 合并框架。HoliTom 通过全局冗余感知的时间分割实现 outer-LLM 剪枝，然后进行时空合并，将视觉 tokens 减少 90% 以上，显著减轻了 LLM 的计算负担。作为补充，我们引入了一种基于 inner-LLM token 相似性的稳健合并方法，该方法旨在实现卓越的性能并与 outer-LLM 剪枝兼容。评估表明，我们的方法在 LLaVA-OneVision-7B 上展示了良好的效率-性能权衡，将计算成本降低到 FLOPs 的 6.9%，同时保持了原始性能的 99.1%。此外，我们将首个 token 时间（Time-To-First-Token, TTFT）减少了 2.28 倍，并将解码吞吐量提高了 1.32 倍，突出了我们集成剪枝方法在高效视频 LLMs 推理中的实际益处。

查看 arXiv 页面查看 PDF

Sicheng Feng

论文提交者

视频大型语言模型 (video LLMs) 在视频理解方面表现出色，但由于冗余的视频 token，面临严重的计算效率低下问题。现有的 token 剪枝方法提供了解决方案。然而，在 LLM 内部进行的操作（inner-LLM pruning），例如 FastV，会在浅层产生固有的计算开销。相比之下，在 LLM 之前执行 token 剪枝的方法（outer-LLM pruning）主要解决了单个帧或有限时间窗口内的空间冗余，而忽略了跨越更长视频序列的关键全局时间动态和相关性。这导致时空缩减效果欠佳，未能充分利用视频的可压缩性。至关重要的是，结合这些策略的协同潜力及其相互影响仍未得到探索。为了进一步减少冗余，我们引入了 HoliTom，一个新颖的、无需训练的整体 token 合并框架。HoliTom 通过全局冗余感知的时间分割进行 outer-LLM 剪枝，然后进行时空合并，将视觉 token 减少 90% 以上，显著减轻了 LLM 的计算负担。作为补充，我们引入了一种基于 inner-LLM token 相似性的鲁棒合并方法，该方法旨在实现卓越性能并与 outer-LLM 剪枝兼容。评估表明，我们的方法在 LLaVA-OneVision-7B 上实现了有前景的效率-性能权衡，将计算成本降至 FLOPs 的 6.9%，同时保持了原始性能的 99.1%。此外，我们将 Time-To-First-Token (TTFT) 缩短了 2.28 倍，并将解码吞吐量加速了 1.32 倍，突出了我们集成剪枝方法在高效视频 LLM 推理方面的实际优势。

HoliTom: 用于快速视频大型语言模型的整体式 token 合并

摘要

评论