HoliTom: 用于快速视频大型语言模型的整体式 token 合并

发表
Sicheng FengSicheng Feng 提交
作者: Kele ShaoKele Shao, Keda Tao, Can Qin, Haoxuan You, yangsuiYang Sui, Huan WangHuan Wang

摘要

视频大型语言模型(video LLMs)在视频理解方面表现出色,但由于冗余的视频 tokens,面临显著的计算效率低下问题。现有的 token 剪枝方法提供了解决方案。然而,在 LLM 内部操作的方法(inner-LLM 剪枝),如 FastV,在浅层会产生固有的计算开销。相比之下,在 LLM 之前执行 token 剪枝的方法(outer-LLM 剪枝)主要解决单个帧或有限时间窗口内的空间冗余,忽略了跨更长视频序列的关键全局时间动态和相关性。这导致次优的时空缩减,并且未能充分利用视频的可压缩性。至关重要的是,结合这些策略的协同潜力和相互影响仍未被探索。为了进一步减少冗余,我们引入了 HoliTom,这是一种无需训练的全新整体 token 合并框架。HoliTom 通过全局冗余感知的时间分割实现 outer-LLM 剪枝,然后进行时空合并,将视觉 tokens 减少 90% 以上,显著减轻了 LLM 的计算负担。作为补充,我们引入了一种基于 inner-LLM token 相似性的稳健合并方法,该方法旨在实现卓越的性能并与 outer-LLM 剪枝兼容。评估表明,我们的方法在 LLaVA-OneVision-7B 上展示了良好的效率-性能权衡,将计算成本降低到 FLOPs 的 6.9%,同时保持了原始性能的 99.1%。此外,我们将首个 token 时间(Time-To-First-Token, TTFT)减少了 2.28 倍,并将解码吞吐量提高了 1.32 倍,突出了我们集成剪枝方法在高效视频 LLMs 推理中的实际益处。
查看 arXiv 页面查看 PDF

评论

Sicheng FengSicheng Feng
论文提交者

视频大型语言模型 (video LLMs) 在视频理解方面表现出色,但由于冗余的视频 token,面临严重的计算效率低下问题。现有的 token 剪枝方法提供了解决方案。然而,在 LLM 内部进行的操作(inner-LLM pruning),例如 FastV,会在浅层产生固有的计算开销。相比之下,在 LLM 之前执行 token 剪枝的方法(outer-LLM pruning)主要解决了单个帧或有限时间窗口内的空间冗余,而忽略了跨越更长视频序列的关键全局时间动态和相关性。这导致时空缩减效果欠佳,未能充分利用视频的可压缩性。至关重要的是,结合这些策略的协同潜力及其相互影响仍未得到探索。为了进一步减少冗余,我们引入了 HoliTom,一个新颖的、无需训练的整体 token 合并框架。HoliTom 通过全局冗余感知的时间分割进行 outer-LLM 剪枝,然后进行时空合并,将视觉 token 减少 90% 以上,显著减轻了 LLM 的计算负担。作为补充,我们引入了一种基于 inner-LLM token 相似性的鲁棒合并方法,该方法旨在实现卓越性能并与 outer-LLM 剪枝兼容。评估表明,我们的方法在 LLaVA-OneVision-7B 上实现了有前景的效率-性能权衡,将计算成本降至 FLOPs 的 6.9%,同时保持了原始性能的 99.1%。此外,我们将 Time-To-First-Token (TTFT) 缩短了 2.28 倍,并将解码吞吐量加速了 1.32 倍,突出了我们集成剪枝方法在高效视频 LLM 推理方面的实际优势。