⏶14
VideoEval-Pro:鲁棒且真实的长视频理解评估
发表
由
Weiming Ren 提交
作者:
Wentao Ma,
Weiming Ren, Yiming Jia,
Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen

摘要
大型多模态模型(LMMs)最近已成为理解长视频(LVU)的强大工具,这促进了标准化 LVU 基准的开发,以评估它们的性能。然而,我们的调查揭示了现有 LVU 基准中一个相当令人警醒的教训。首先,大多数现有基准严重依赖选择题(MCQs),其评估结果由于猜测正确答案的可能性而被夸大;其次,这些基准中相当一部分问题存在很强的先验性,使得模型无需阅读输入视频即可直接回答。例如,Gemini-1.5-Pro 在 Video-MME 上仅给定长视频中的随机一帧就能达到超过 50% 的准确率。我们还观察到,增加帧数并不一定能改善在现有基准上的表现,这与直觉相反。因此,当前 LVU 基准的有效性和稳健性受到损害,阻碍了对 LMM 长视频理解能力的真实评估。为了解决这个问题,我们提出了 VideoEval-Pro,这是一个真实的 LVU 基准,包含开放式简答题,真正需要理解整个视频。VideoEval-Pro 通过感知和推理任务评估片段级和全视频理解能力。通过评估 21 个专有和开源视频 LMM,我们得出以下发现:(1)与选择题相比,视频 LMM 在开放式问题上的性能显着下降(>25%);(2)令人惊讶的是,选择题得分较高并不能带来 VideoEval-Pro 上开放式问题得分较高;(3)与其他选择题基准相比,VideoEval-Pro 更能受益于增加输入帧数。我们的结果表明,VideoEval-Pro 为长视频理解提供了一个更真实可靠的衡量标准,为该领域的进展提供了更清晰的视图。
我们提出了 VideoEval-Pro,一个更鲁棒、更真实的长时间视频理解基准。
主页:https://tiger-ai-lab.github.io/VideoEval-Pro
Huggingface 数据集:https://huggingface.co/datasets/TIGER-Lab/VideoEval-Pro