⏶43

多粒度时空 Token 合并，用于视频 LLM 的免训练加速

07月10日发表

07月11日由 Hyun, Jeongseok 提交

作者: Jeongseok Hyun, Sukjun Hwang, Su Ho Han, Taeoh Kim, Inwoong Lee, Dongyoon Wee, Joon-Young Lee, Seon Joo Kim, Minho Shim

摘要

视频大型语言模型（LLM）通过利用大量的时空token实现了强大的视频理解能力，但其计算量随着token数量呈二次方增长。为了解决这个问题，我们提出了一种无需训练的时空token合并方法，名为STTM。我们的关键洞察在于利用视频数据中被先前工作忽视的局部空间和时间冗余。STTM首先使用四叉树结构上的粗到细搜索将每一帧转换为多粒度的空间token，然后沿着时间维度执行有向的成对合并。这种分解合并方法在六个视频问答基准测试中优于现有的token削减方法。值得注意的是，在50%的token预算下，STTM实现了2倍的加速，准确率仅下降0.5%；在30%的预算下，实现了3倍的加速，准确率仅下降2%。此外，STTM与查询无关，允许对同一视频的不同问题重用KV缓存。项目页面可在 https://www.jshyun.me/projects/sttm 访问。

查看 arXiv 页面查看 PDF

Hyun, Jeongseok

论文作者

论文提交者

此评论已隐藏。

Hyun, Jeongseok

论文作者

论文提交者

速度翻倍，无需训练：视频LLM的免费午餐！

长视频会拖慢速度——LLM在响应前必须预填充大量上下文。我们引入了STTM，这是首个无需训练的视频LLM时空token合并技术。更好的是，它与查询无关——因此，缩减后的KV缓存可以在同一视频的多个问题中重复使用。

🔍 TL;DR（太长不看）

🧩 合并机制。(1) 每帧的由粗到细空间token合并。(2) 跨附近帧的不同粒度空间token的定向时间合并。

🌐 模型泛化性。通过LLaVA-Video-7B/72B、LLaVA-OneVision-7B和Qwen2VL-7B验证。

📊 数据集覆盖。在涵盖3个类别的6个视频问答数据集上进行评估：

🔸 NIAH: VNBench

🔸 长期：VideoMME, LongVideoBench, MLVU

🔸 短期：EgoSchema, NExT-QA

⚡ 结果

🚀 LLaVA-Video-7B。(1) 在50%以下token时，速度提升2.1倍，准确率达99.5%。(2) 在30%以下token时，速度提升3.0倍，准确率达97.8%。

🚀 LLaVA-OneVision-7B。(1) 在50%以下token时，速度提升2.2倍，准确率达102.1%。(2) 在30%以下token时，速度提升3.1倍，准确率达101.1%。

🚀 Qwen2VL-7B。(1) 在50%以下token时，速度提升2.6倍，准确率达102.7%。(2) 在30%以下token时，速度提升4.5倍，准确率达100.5%。

🚀 LLaVA-Video-72B。(1) 在50%以下token时，速度提升2.3倍，准确率达101.3%。(2) 在30%以下token时，速度提升3.3倍，准确率达99.1%。

Hyun, Jeongseok

论文作者

论文提交者

项目页面：https://www.jshyun.me/projects/sttm