QuickVideo: 结合系统算法协同设计的实时长视频理解

发表
Dongfu JiangDongfu Jiang 提交
作者: Benjamin Schneider, Dongfu JiangDongfu Jiang, Chao Du, Tianyu PangTianyu Pang, Wenhu Chen

摘要

长视频理解已成为视频监控、会议纪要生成、教育讲座分析和体育赛事直播等实际应用中的关键能力。然而,对于 VideoLLMs 而言,计算成本仍然过高,主要由于两个瓶颈:1) 顺序视频解码,将原始比特流转换为 RGB 帧的过程对于小时长的视频输入可能需要一分钟;2) 对于 LLM 推理而言,高达数百万 token 的昂贵 prefilling,导致高延迟和内存使用。为了解决这些挑战,我们提出了 QuickVideo,一个系统与算法协同设计,大幅加速长视频理解以支持实时下游应用。它包含三项关键创新:QuickDecoder,一个并行化的基于 CPU 的视频解码器,通过将视频分割成关键帧对齐的区间并并行处理,实现了 2-3 倍的加速;QuickPrefill,一个内存高效的 prefilling 方法,使用 KV-cache 剪枝,以更少的 GPU 内存支持更多帧;以及一个重叠方案,将 CPU 视频解码与 GPU 推理重叠。总而言之,这些组件将长视频输入上的推理时间减少了一分钟,即使在有限硬件上也能实现可扩展、高质量的视频理解。实验表明,QuickVideo 在不同时长和采样率下均具有通用性,使长视频处理在实践中变得可行。
查看 arXiv 页面查看 PDF

评论

Dongfu JiangDongfu Jiang
论文作者
论文提交者

代码已发布至 https://github.com/TIGER-AI-Lab/QuickVideo!

Dongfu JiangDongfu Jiang
论文作者
论文提交者

推特现在位于:https://x.com/DongfuJiang/status/1926371335418110350!