⏶46

StreamingVLM: 实时理解无限视频流

10月10日发表

10月13日由 taesiri 提交

作者: Ruyi Xu, Guangxuan Xiao, YukangChen Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han

摘要

AI 生成总结

StreamingVLM 是一个实时视觉-语言模型，它使用紧凑的 KV 缓存和监督微调来有效地处理无限视频流，在长视频和各种基准测试中实现了高性能。

视觉语言模型（VLMs）可以为实时助手和自主代理提供动力，但它们面临一个关键挑战：在不增加延迟和内存使用量的情况下理解近乎无限的视频流。对整个视频进行全注意力处理会导致二次方计算成本，并且在长视频上的性能很差。同时，简单的滑动窗口方法也有缺陷，因为它们要么破坏连贯性，要么由于冗余的重新计算而导致高延迟。在本文中，我们介绍了 StreamingVLM，一个专为实时、稳定的无限视觉输入理解而设计的模型。我们的方法是一个统一的框架，将训练与流式推理对齐。在推理过程中，我们通过重用注意力汇聚点的状态、最近的短视频 token 窗口以及最近的长文本 token 窗口来维护一个紧凑的 KV 缓存。通过一种简单的监督微调（SFT）策略，可以在短的、重叠的视频块上应用全注意力，从而有效地模仿推理时的注意力模式，而无需在过长的上下文上进行训练，从而实现了这种流式能力。为了评估，我们构建了 Inf-Streams-Eval，一个平均视频长度超过两小时的新基准，需要帧和文本之间进行密集的、每秒对齐。在 Inf-Streams-Eval 上，StreamingVLM 相对于 GPT-4O mini 取得了 66.18% 的胜率，并在单台 NVIDIA H100 上以高达 8 FPS 的速度保持稳定、实时的性能。值得注意的是，我们的 SFT 策略在没有任何 VQA 特定微调的情况下，也增强了通用的 VQA 能力，在 LongVideoBench 上提高了 +4.30，在 OVOBench Realtime 上提高了 +5.96。代码可在 https://github.com/mit-han-lab/streaming-vlm 获取。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

StreamingVLM 通过保持紧凑的 KV 缓存并将训练与流式推理对齐，实现了对几乎无限视频的实时、稳定理解。它避免了二次成本和滑动窗口的陷阱，在单个 H100 上运行速度高达 8 FPS，在一个新的长视频基准上以 66.18% 的优势击败了 GPT-4o mini。它在没有特定任务微调的情况下也能提高一般的 VQA 性能。你可以通过首先略读本节来掌握要点。

StreamingVLM: 实时理解无限视频流

摘要

评论