⏶2

MUSEG：通过时间戳感知多片段定位增强视频时间理解

05月27日发表

05月29日由 Chi Chen 提交

作者: Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu

摘要

视频时间理解对于多模态大型语言模型(MLLM)推断视频中的事件至关重要。尽管通用视频理解取得了最新进展，但当前的MLLM在细粒度时间推理方面仍然面临挑战。虽然最近探索了强化学习(RL)来解决这个问题，但现有RL方法的有效性仍然有限。在这项工作中，我们提出了MUSEG，这是一种基于RL的新方法，通过引入时间戳感知的多片段接地来增强时间理解能力。MUSEG使MLLM能够将查询与多个相关的视频片段对齐，从而促进更全面的时间推理。为了促进有效学习，我们设计了一个定制的RL训练方案，该方案具有阶段性奖励，逐步引导模型进行时间接地推理。在时间接地和时间敏感视频问答任务上的广泛实验表明，MUSEG显着优于现有方法，并且在各种时间理解场景中具有良好的泛化能力。请访问我们的项目：https://github.com/THUNLP-MT/MUSEG。

查看 arXiv 页面查看 PDF

Chi Chen

论文提交者

我们发现，多片段接地是推进视频时间理解的关键，并提出了一种基于强化学习的方法以有效实现这一目标。

MUSEG：通过时间戳感知多片段定位增强视频时间理解

摘要

评论