分解视频LLM基准:是知识、空间感知,还是真正的时序理解?

发表
Zhengfeng LaiZhengfeng Lai 提交
作者: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao

摘要

现有的视频理解基准常常将基于知识的问题与纯基于图像的问题混为一谈,而未能清晰地分离模型的时序推理能力,这是区分视频理解与其他模态的关键方面。我们发现了两个主要的局限性,这使得高分是否真正表明对视频动态内容的更强理解变得模糊不清:(1) 强大的语言先验知识,模型无需观看视频即可回答问题;以及 (2) 混淆不变性,即使视频帧被时序打乱,模型在某些问题上的性能也保持相似。为了缓解这些问题,我们提出了 VBenchComp,一个自动化流程,将问题划分为不同的领域:LLM 可回答、语义和时序。具体来说,LLM 可回答的问题无需观看视频即可回答;语义问题即使视频帧被打乱也仍然可回答;时序问题需要理解帧的正确时序顺序。其余问题被标记为其他。这可以实现对视频大语言模型 (video LLM) 不同能力的细粒度评估。我们的分析揭示了被传统整体得分所掩盖的细微模型弱点,并为设计未来能更准确评估视频大语言模型的基准提供了见解和建议。
查看 arXiv 页面查看 PDF

评论

Zhengfeng LaiZhengfeng Lai
论文提交者

🚨🚨🚨 每天都有新的视频基准测试涌现——但它们真的在评估视频理解能力吗?我们能否开发一个可靠的协议来评估这些基准测试本身的质量?

在我们最新的工作中,我们发现了现有许多基准测试的两个关键问题,并提出了我们的协议(VBenchComp):

1️⃣ 语言先验性(Language priors)—— 模型往往无需查看视频就能回答问题。

2️⃣ 顺序不敏感性(Order insensitivity)—— 无需理解帧的时间序列就能回答问题。

这些基准测试通常过于语义化,未能测试视频理解的关键难点。