⏶27
Video-Holmes:MLLM 能像福尔摩斯一样进行复杂的视频推理吗?
发表
由
CJH 提交
作者:
Junhao Cheng,
Yuying Ge,
Teng Wang,
Yixiao Ge,
Jing Liao,
Ying Shan
摘要
据报道,CoT 推理和 RL 后训练的最新进展增强了 MLLMs 的视频推理能力。这一进展自然引出了一个问题:这些模型能否以与人类专家媲美的方式执行复杂的视频推理?然而,现有的视频基准主要评估视觉感知和定位能力,其问题可以基于明确的提示或孤立的视觉线索来回答。此类基准未能充分捕捉现实世界推理的复杂性,在现实世界中,人类必须主动搜索、整合和分析多个线索才能得出结论。为了解决这个问题,我们提出了 Video-Holmes,这是一个受福尔摩斯推理过程启发而设计的基准,旨在评估 MLLMs 的复杂视频推理能力。Video-Holmes 包含 1,837 个问题,源自 270 部手动标注的悬疑短片,涵盖七个精心设计的任务。每个任务的构建都是首先识别电影中的关键事件和因果关系,然后设计要求模型主动定位和连接分布在不同视频片段中的多个相关视觉线索的问题。我们对最先进的 MLLMs 进行的全面评估显示,虽然这些模型在视觉感知方面通常表现出色,但在整合信息方面遇到了相当大的困难,并且经常遗漏关键线索。例如,性能最好的模型 Gemini-2.5-Pro 的准确率仅为 45%,大多数模型得分低于 40%。我们希望 Video-Holmes 能成为多模态推理的“福尔摩斯测试”,激励模型更多地像人类一样推理,并强调该领域持续存在的挑战。该基准已发布在 https://github.com/TencentARC/Video-Holmes。
Video-Holmes