⏶2
MUSEG:通过时间戳感知多片段定位增强视频时间理解
发表
由
Chi Chen 提交
作者: Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
摘要
视频时间理解对于多模态大型语言模型(MLLM)推断视频中的事件至关重要。尽管通用视频理解取得了最新进展,但当前的MLLM在细粒度时间推理方面仍然面临挑战。虽然最近探索了强化学习(RL)来解决这个问题,但现有RL方法的有效性仍然有限。在这项工作中,我们提出了MUSEG,这是一种基于RL的新方法,通过引入时间戳感知的多片段接地来增强时间理解能力。MUSEG使MLLM能够将查询与多个相关的视频片段对齐,从而促进更全面的时间推理。为了促进有效学习,我们设计了一个定制的RL训练方案,该方案具有阶段性奖励,逐步引导模型进行时间接地推理。在时间接地和时间敏感视频问答任务上的广泛实验表明,MUSEG显着优于现有方法,并且在各种时间理解场景中具有良好的泛化能力。请访问我们的项目:https://github.com/THUNLP-MT/MUSEG。
我们发现,多片段接地是推进视频时间理解的关键,并提出了一种基于强化学习的方法以有效实现这一目标。