InfiniPot-V:用于流媒体视频理解的内存受限 KV 缓存压缩

发表
Minsoo KimMinsoo Kim 提交
作者: Minsoo KimMinsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang

摘要

现代多模态大型语言模型 (MLLMs) 能够对长达数小时的视频进行推理,但其键值 (KV) 缓存会随时间线性增长——迅速超出手机、AR 眼镜和边缘机器人等设备的固定内存。先前的压缩方案要么假设整个视频和用户查询可离线获取,要么必须首先构建完整缓存,因此内存仍会随流长度而扩展。InfiniPot-V 是第一个无需训练、与查询无关的框架,它为流式视频理解强制实行硬性、与长度无关的内存上限。在视频编码过程中,它会监控缓存,一旦达到用户设定的阈值,就会运行一次轻量级压缩,该过程 (i) 通过时间轴冗余 (TaR) 指标移除时间上冗余的标记,以及 (ii) 通过值范数 (VaN) 排名保留语义上重要的标记。在四个开源 MLLM 以及四个长视频和两个流视频基准测试中,InfiniPot-V 将峰值 GPU 内存削减高达 94%,保持实时生成,并匹配或超越完整缓存的准确性——即使在多轮对话中也是如此。通过在无需重新训练或查询知识的情况下消除 KV 缓存瓶颈,InfiniPot-V 弥补了设备上流式视频助手方面的空白。
查看 arXiv 页面查看 PDF

评论

Minsoo KimMinsoo Kim
论文作者
论文提交者

InfiniPot-V 通过时空/查询无关的KV缓存压缩,实现了内存受限的流媒体视频处理。代码即将发布。

https://github.com/aiha-lab/InfiniPot-V