⏶39
VideoReasonBench:MLLM能否执行以视觉为中心的复杂视频推理?
发表
由
Yuanxin Liu 提交
作者: Yuanxin Liu,
Kun Ouyang,
Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun

摘要
近期研究表明,长链式思考(CoT)推理可以显著提高大型语言模型(LLMs)在复杂任务上的性能。然而,这种益处尚未在视频理解领域得到证明,因为现有的大多数基准缺乏展示扩展CoT链优势所需的推理深度。尽管近期工作提出了旨在进行视频推理的基准,但任务通常是知识驱动的,不严重依赖视觉内容。为了弥合这一差距,我们引入了VideoReasonBench,一个旨在评估以视觉为中心、复杂的视频推理的基准。为了确保视觉丰富性和高推理复杂度,VideoReasonBench中的每个视频都描绘了对潜在状态进行的一系列精细操作,该状态仅在视频部分可见。问题评估视频推理的三个递进级别:回忆观察到的视觉信息、推断潜在状态的内容以及预测视频之外的信息。在此任务设置下,模型必须精确回忆视频中的多个操作,并执行逐步推理以获得这些问题的正确最终答案。使用VideoReasonBench,我们全面评估了18个最先进的多模态LLMs(MLLMs),发现大多数在复杂视频推理上表现不佳,例如,GPT-4o仅达到6.9%的准确率,而思维增强的Gemini-2.5-Pro以56.0%的准确率显著优于其他模型。我们对“推理时放大”的调查进一步揭示,扩展的思考预算在现有视频基准上提供零或最小益处,但对于提高在VideoReasonBench上的性能至关重要。
项目页面:https://llyx97.github.io/video_reason_bench/ Arxiv:https://arxiv.org/pdf/2505.23359 代码:https://github.com/llyx97/video_reason_bench 数据:https://huggingface.co/datasets/lyx97/reasoning_videos