Video-MME-v2:迈向全面视频理解基准测试的新阶段

发表
Chaoyou FuChaoyou Fu 提交
作者: Chaoyou FuChaoyou Fu, Haozhi YuanHaozhi Yuan, Yuhao DongYuhao Dong, Yi-Fan ZhangYi-Fan Zhang, 沈云航 Yunhang ShenYunhang Shen, Xiaoxing Hu, Xueying Li, Jinsen Su, Chengwu Long, Xiaoyao Xie, Yongkang Xie, Xiawu Zheng, Xue YangXue Yang, caohaoyuHaoyu Cao, Yunsheng Wu, Ziwei Liu, XING SUNXing Sun, Caifeng Shan, Ran He

摘要

AI 生成总结
Video-MME-v2 提出了一个全面的基准测试,通过渐进式分层和基于组的评估来评估视频理解模型的鲁棒性和忠实度。
随着视频理解技术的飞速发展,现有基准测试正趋于饱和,暴露出虚高的排行榜分数与模型在现实世界中实际能力之间的严重脱节。为了弥补这一日益扩大的差距,我们推出了 Video-MME-v2,这是一个旨在严格评估视频理解鲁棒性和忠实性的综合基准。为了系统地评估模型能力,我们设计了一个渐进式三级层次结构,从多点视觉信息聚合、时间动态建模,到复杂的跨模态推理,逐步增加视频理解的复杂性。此外,与传统的单题准确率不同,我们提出了一种基于组的非线性评估策略,该策略既要求相关查询之间的一致性,也要求多步推理的连贯性。它惩罚碎片化或基于猜测的正误,仅对有有效推理支持的答案赋予评分。为确保数据质量,Video-MME-v2 通过严格控制的人工标注流程构建,涉及 12 名标注员和 50 名独立审核员。在 3,300 个人工小时和多达 5 轮质量保证的支持下,Video-MME-v2 旨在成为最权威的视频基准之一。大量实验揭示了当前最强模型 Gemini-1.5-Pro 与人类专家之间存在的巨大差距,并发现了明显的层次瓶颈:视觉信息聚合和时间建模中的错误会向上传播,限制高级推理能力。我们进一步发现,基于思考的推理高度依赖文本线索,在有字幕的情况下性能会有所提升,但在纯视觉场景下有时反而会下降。通过揭示这些局限性,Video-MME-v2 为下一代视频多模态大语言模型(MLLM)的开发建立了一个极具挑战性的新试验场。
查看 arXiv 页面查看 PDF

评论

Chaoyou FuChaoyou Fu
论文作者
论文提交者

Video-MME-v2:迈向视频理解评估的下一阶段

image

技术报告: https://arxiv.org/pdf/2604.05015

项目主页: https://video-mme-v2.netlify.app/

排行榜: https://video-mme-v2.netlify.app/#leaderboard

GitHub: https://github.com/MME-Benchmarks/Video-MME-v2

数据集: https://huggingface.co/datasets/MME-Benchmarks/Video-MME-v2

Chaoyou FuChaoyou Fu
论文作者
论文提交者

image

Chaoyou FuChaoyou Fu
论文作者
论文提交者

image

Chaoyou FuChaoyou Fu
论文作者
论文提交者

image

Mishig DavaadorjMishig Davaadorj
Video-MME-v2:迈向全面视频理解基准测试的新阶段

Video-MME-v2 推出了用于评估多模态视频理解模型的新一代基准测试。该基准由 12 名标注员和 50 名审核员历时 3,300 多个工时构建(每个问题最多经过 5 轮 QA),将视频理解结构化为三级分层体系,并用基于分组的非线性评估取代了单题准确率,以惩罚猜测行为。基准测试揭示了顶尖前沿模型(Gemini-3-Pro 为 49.4%)与人类专家(90.7%)之间的巨大差距,凸显了当前系统距离人类水平的视频理解仍有很长的路要走。

核心思想

该基准测试将视频理解组织为三个递进的难度级别:底层的视觉信息聚合、中间层的时空动态建模以及顶层的复杂多模态推理。这种三级分层确保评估涵盖视频理解的全谱系,而非仅测试孤立的能力。

TriLevelHierarchy

方法/路径

Video-MME-v2 采用基于分组的非线性评估协议取代了传统的单题准确率。相关问题被组合在一起,模型必须正确回答组内所有问题才算通过该组。这种设计惩罚了凭运气猜对的情况——随机答对单个问题的模型仍会在组级别失败,从而提供更真实可靠的理解能力信号。

GroupEval

结果

表现最好的前沿模型 Gemini-3-Pro 仅获得 49.4% 的得分,而人类专家为 90.7%,差距高达 41.3 个百分点。研究还发现,基于思考的推理策略严重依赖文本线索:当提供字幕时,它们能提升表现,但在纯视觉场景下反而会损害准确性,这表明当前模型更多是依赖语言捷径而非真正的视觉推理。

PerformanceGap