⏶46
StreamingVLM: 实时理解无限视频流
发表
由
taesiri 提交

作者: Ruyi Xu, Guangxuan Xiao,
Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han

摘要
AI 生成总结
StreamingVLM 是一个实时视觉-语言模型,它使用紧凑的 KV 缓存和监督微调来有效地处理无限视频流,在长视频和各种基准测试中实现了高性能。视觉语言模型(VLMs)可以为实时助手和自主代理提供动力,但它们面临一个关键挑战:在不增加延迟和内存使用量的情况下理解近乎无限的视频流。对整个视频进行全注意力处理会导致二次方计算成本,并且在长视频上的性能很差。同时,简单的滑动窗口方法也有缺陷,因为它们要么破坏连贯性,要么由于冗余的重新计算而导致高延迟。在本文中,我们介绍了 StreamingVLM,一个专为实时、稳定的无限视觉输入理解而设计的模型。我们的方法是一个统一的框架,将训练与流式推理对齐。在推理过程中,我们通过重用注意力汇聚点的状态、最近的短视频 token 窗口以及最近的长文本 token 窗口来维护一个紧凑的 KV 缓存。通过一种简单的监督微调(SFT)策略,可以在短的、重叠的视频块上应用全注意力,从而有效地模仿推理时的注意力模式,而无需在过长的上下文上进行训练,从而实现了这种流式能力。为了评估,我们构建了 Inf-Streams-Eval,一个平均视频长度超过两小时的新基准,需要帧和文本之间进行密集的、每秒对齐。在 Inf-Streams-Eval 上,StreamingVLM 相对于 GPT-4O mini 取得了 66.18% 的胜率,并在单台 NVIDIA H100 上以高达 8 FPS 的速度保持稳定、实时的性能。值得注意的是,我们的 SFT 策略在没有任何 VQA 特定微调的情况下,也增强了通用的 VQA 能力,在 LongVideoBench 上提高了 +4.30,在 OVOBench Realtime 上提高了 +5.96。代码可在 https://github.com/mit-han-lab/streaming-vlm 获取。
StreamingVLM 通过保持紧凑的 KV 缓存并将训练与流式推理对齐,实现了对几乎无限视频的实时、稳定理解。它避免了二次成本和滑动窗口的陷阱,在单个 H100 上运行速度高达 8 FPS,在一个新的长视频基准上以 66.18% 的优势击败了 GPT-4o mini。它在没有特定任务微调的情况下也能提高一般的 VQA 性能。你可以通过首先略读本节来掌握要点。