⏶14
迈向视频思维测试:一个用于高级视频推理与理解的综合基准
发表
由
Zhang Yuanhan 提交

作者:
Yuanhan Zhang,
Yunice Chew, Yuhao Dong, Aria Leo, Bo Hu, Ziwei Liu


摘要
人类智能需要正确性和鲁棒性,其中正确性是鲁棒性的基础。在视频理解中,正确性确保了对视觉内容的准确解读,而鲁棒性则在严苛条件下保持了一致的性能。尽管视频大型语言模型(video LLMs)取得了进展,但现有基准未能充分反映这些模型与人类智能在视频解读的正确性和鲁棒性方面存在的差距。我们引入了视频思维测试(Video-TT),以评估视频 LLM 是否能像人类一样有效地解读真实世界视频。Video-TT 反映了在理解复杂视觉叙事方面的真实差距,并评估了其在自然对抗性问题下的鲁棒性。Video-TT 包含 1,000 个 YouTube Shorts 视频,每个视频都带有一个开放式问题和四个探究视觉和叙事复杂性的对抗性问题。我们的评估显示,视频 LLM 的表现与人类表现之间存在显著差距。
ICCV2025
项目页面:https://zhangyuanhan-ai.github.io/video-tt/
数据集:https://huggingface.co/datasets/lmms-lab/video-tt
演示视频:https://www.youtube.com/watch?v=vjL-munUong