VideoReasonBench:MLLM能否执行以视觉为中心的复杂视频推理?

发表
Yuanxin LiuYuanxin Liu 提交
作者: Yuanxin Liu, kun ouyangKun Ouyang, Haoning Wu, TeoHaoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun

摘要

近期研究表明,长链式思考(CoT)推理可以显著提高大型语言模型(LLMs)在复杂任务上的性能。然而,这种益处尚未在视频理解领域得到证明,因为现有的大多数基准缺乏展示扩展CoT链优势所需的推理深度。尽管近期工作提出了旨在进行视频推理的基准,但任务通常是知识驱动的,不严重依赖视觉内容。为了弥合这一差距,我们引入了VideoReasonBench,一个旨在评估以视觉为中心、复杂的视频推理的基准。为了确保视觉丰富性和高推理复杂度,VideoReasonBench中的每个视频都描绘了对潜在状态进行的一系列精细操作,该状态仅在视频部分可见。问题评估视频推理的三个递进级别:回忆观察到的视觉信息、推断潜在状态的内容以及预测视频之外的信息。在此任务设置下,模型必须精确回忆视频中的多个操作,并执行逐步推理以获得这些问题的正确最终答案。使用VideoReasonBench,我们全面评估了18个最先进的多模态LLMs(MLLMs),发现大多数在复杂视频推理上表现不佳,例如,GPT-4o仅达到6.9%的准确率,而思维增强的Gemini-2.5-Pro以56.0%的准确率显著优于其他模型。我们对“推理时放大”的调查进一步揭示,扩展的思考预算在现有视频基准上提供零或最小益处,但对于提高在VideoReasonBench上的性能至关重要。
查看 arXiv 页面查看 PDF

评论

kun ouyangkun ouyang
论文作者
此评论已隐藏。
Yi LiuYi Liu

很棒的工作 👍

Yuanxin LiuYuanxin Liu
论文提交者

VideoReasonBench 突出了思考的好处!

bench_compare.png

think_effect.png

kun ouyangkun ouyang
论文作者

太棒了!现在,让我们来测试一下您的 MLLM——看看它们在零预训练的情况下能否在这个基准上取得优异成绩!🌟 想象一下,这就像蒙着眼睛派你的 AI 小伙伴去参加知识问答比赛……但带着纯粹神经网络魔法的秘密武器。🧠✨ 它会像睡眼惺忪的企鹅一样跌跌撞撞,还是像专业玩家一样一击命中?各位,下注吧——表演时间到!🎉 (专业建议:抓把爆米花——这可能会比猫追逐激光笔表演更精彩!)