⏶6
MR. Video:"MapReduce" 是长视频理解的关键原则
发表
由
Ziqi Pang 提交
作者:
Ziqi Pang, Yu-Xiong Wang
摘要
我们提出了 MR. Video,一个代理式长视频理解框架,它展示了简单而有效的 MapReduce 原理来处理长视频:(1)Map:独立密集地感知短视频片段,以及(2)Reduce:联合聚合所有片段的信息。与序列到序列的视觉-语言模型(VLMs)相比,MR. Video 在进行详细短视频感知时不受上下文长度的限制。与通常依赖顺序关键片段选择的现有视频代理相比,Map 操作使得短视频片段的序列并行感知更简单且更具可扩展性。其 Reduce 步骤允许更全面的上下文聚合和推理,超越了显式关键片段检索。这种 MapReduce 原理适用于 VLMs 和视频代理,我们使用 LLM 代理来验证其有效性。
在实践中,MR. Video 采用两个 MapReduce 阶段:(A)字幕生成:为短视频片段生成字幕(map),然后将重复的角色和对象标准化为共享名称(reduce);(B)分析:对于每个用户问题,从单个短视频中分析相关信息(map),并将它们整合到最终答案中(reduce)。MR. Video 在具有挑战性的 LVBench 上比最先进的 VLMs 和视频代理的准确率提高了 10% 以上。
代码可在以下位置获取:https://github.com/ziqipang/MR-Video
MR. Video: “MapReduce” 是长视频理解的原理