MUSEG:通过时间戳感知多片段定位增强视频时间理解

发表
Chi ChenChi Chen 提交
作者: Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu

摘要

视频时间理解对于多模态大型语言模型(MLLM)推断视频中的事件至关重要。尽管通用视频理解取得了最新进展,但当前的MLLM在细粒度时间推理方面仍然面临挑战。虽然最近探索了强化学习(RL)来解决这个问题,但现有RL方法的有效性仍然有限。在这项工作中,我们提出了MUSEG,这是一种基于RL的新方法,通过引入时间戳感知的多片段接地来增强时间理解能力。MUSEG使MLLM能够将查询与多个相关的视频片段对齐,从而促进更全面的时间推理。为了促进有效学习,我们设计了一个定制的RL训练方案,该方案具有阶段性奖励,逐步引导模型进行时间接地推理。在时间接地和时间敏感视频问答任务上的广泛实验表明,MUSEG显着优于现有方法,并且在各种时间理解场景中具有良好的泛化能力。请访问我们的项目:https://github.com/THUNLP-MT/MUSEG
查看 arXiv 页面查看 PDF

评论

Chi ChenChi Chen
论文提交者

我们发现,多片段接地是推进视频时间理解的关键,并提出了一种基于强化学习的方法以有效实现这一目标。