通过下一事件预测促进视频推理

发表
Tianyu PangTianyu Pang 提交
作者: Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang

摘要

下一词元预测作为基础学习任务,使大语言模型(LLMs)具备推理能力。但是,当目标是让多模态大语言模型(MLLMs)具备处理视频输入时的时间推理能力时,学习任务应该是什么?现有的任务,如视频问答,通常依赖于人类或更强大的MLLMs的标注,而视频字幕生成则倾向于将时间推理与空间信息纠缠在一起。为了解决这一空白,我们提出了下一事件预测(NEP),这是一种利用未来视频片段作为丰富、自监督的信号来促进时间推理的学习任务。我们将每个视频分割成过去和未来帧:MLLM以过去帧作为输入,并预测从未来帧中提取的事件摘要,从而鼓励模型进行时间推理以完成任务。为了支持这项任务,我们整理了V1-33K数据集,该数据集包含33,000个自动提取的视频片段,涵盖了多样化的现实世界场景。我们进一步探索了一系列视频指令微调策略,以研究它们对时间推理的影响。为了评估进展,我们引入了FutureBench来评估预测未知未来事件的连贯性。实验验证了NEP为在MLLMs中培养时间推理能力提供了一个可扩展且有效的训练范式。
查看 arXiv 页面查看 PDF

评论

Tianyu PangTianyu Pang
论文提交者

下一个词元预测是使大型语言模型 (LLMs) 具备推理能力的基础学习任务。但当目标是赋予多模态大型语言模型 (MLLMs) 处理视频输入的时间推理能力时,学习任务应该是什么?现有的任务,例如视频问答,通常依赖于人工或更强的 MLLMs 提供的标注,而视频字幕则往往将时间推理与空间信息纠缠在一起。为了弥补这一差距,我们提出了下一个事件预测 (NEP),这是一项利用未来视频片段作为丰富的自监督信号来促进时间推理的学习任务。我们将每个视频分割成过去帧和未来帧:MLLM 将过去帧作为输入,并预测源自未来帧的事件摘要,从而鼓励模型为了完成任务而进行时间推理。为了支持这项任务,我们整理了 V1-33K 数据集,该数据集包含 33,000 个自动提取的视频片段,涵盖了不同的现实世界场景。我们进一步探索了一系列视频指令微调策略,以研究它们对时间推理的影响。为了评估进展,我们引入了 FutureBench 来评估预测未见未来事件的连贯性。实验验证了 NEP 为培养 MLLMs 的时间推理能力提供了一种可扩展且有效的训练范式。