⏶12
Video-MTR: 强化多轮推理以理解长视频
发表
由
Tianshui Chen 提交
作者: Yuan Xie,
Tianshui Chen, Zheng Ge, Lionel Ni
摘要
长视频理解,其特点是长程时序依赖和多事件,仍然是一个挑战。现有方法通常依赖于静态推理或外部视觉语言模型(VLM),由于缺乏端到端训练,这些方法面临复杂性高和性能不佳等问题。本文提出了一种名为 Video-MTR 的强化多轮推理框架,旨在实现迭代的关键视频片段选择和问题理解。与一次性生成预测的传统视频推理管道不同,Video-MTR 通过多轮推理,根据对先前处理过的片段和当前问题的不断演变理解,逐步选择视频片段。这种迭代过程可以对视频进行更精细、更具上下文意识的分析。为了确保中间推理过程,我们引入了一个新颖的门控双层奖励系统,结合了基于答案正确性的轨迹级别奖励和强调帧-查询相关性的轮级别奖励。该系统优化了视频片段选择和问题理解,无需外部 VLM,并支持端到端训练。在 VideoMME、MLVU 和 EgoSchema 等基准上的广泛实验表明,Video-MTR 在准确性和效率方面均优于现有方法,推动了长视频理解领域的最新进展。

Video-MTR:用于长视频理解的强化多轮推理
长时视频理解,以长程时间依赖和多个事件为特征,仍然是一个挑战。现有方法通常依赖于静态推理或外部视觉语言模型(VLM),由于缺乏端到端训练,这些方法面临复杂性和次优性能等问题。在本文中,我们提出了Video-MTR,一个强化多轮推理框架,旨在实现迭代式关键视频片段选择和问题理解。与生成单轮预测的传统视频推理管道不同,Video-MTR进行多轮推理,根据对先前处理片段和当前问题的不断演变理解,逐步选择视频片段。这个迭代过程允许对视频进行更精细、更具上下文感知能力的分析。为了确保中间推理过程,我们引入了一种新颖的门控双层奖励系统,结合了基于答案正确性的轨迹级别奖励和强调帧-查询相关性的轮次级别奖励。该系统优化了视频片段选择和问题理解,无需外部VLM,并允许端到端训练。在VideoMME、MLVU和EgoSchema等基准测试上进行的广泛实验表明,Video-MTR在准确性和效率方面均优于现有方法,推动了长视频理解的最新进展。