⏶22
IV-Bench:多模态大型语言模型中的基于图像的视频感知与推理基准
发表
由
Ge Zhang 提交
作者:
David Ma, Yuanxing Zhang,
Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang,
Zhongyuan Peng,
Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao,
Shiwen Ni,
Jiaheng Liu,
Wenhao Huang,
Ge Zhang, Xiaojie Jin

摘要
现有的多模态大型语言模型(MLLMs)评估框架主要关注图像推理或通用视频理解任务,很大程度上忽略了图像上下文在视频理解中的重要作用。为了弥合这一差距,我们提出了 IV-Bench,这是首个用于评估基于图像的视频感知和推理的综合基准。IV-Bench 包含 967 个视频,搭配 2,585 个精心标注的图像-文本查询,涵盖 13 项任务(7 项感知任务和 6 项推理任务)以及 5 个代表性类别。对最先进的开源(如 InternVL2.5、Qwen2.5-VL)和闭源(如 GPT-4o、Gemini2-Flash 和 Gemini2-Pro)MLLMs 的广泛评估表明,当前模型在基于图像的视频感知和推理方面表现显著不足,最高准确率仅为 28.9%。进一步分析揭示了影响模型在 IV-Bench 上性能的关键因素,包括推理模式、帧数和分辨率。此外,通过一种简单的数据合成方法,我们证明了 IV-Bench 的挑战不仅仅在于训练过程中对齐数据格式。这些发现共同为未来的研究提供了宝贵的见解。我们的代码和数据已在 https://github.com/multimodal-art-projection/IV-Bench 发布。
现有的多模态大语言模型 (MLLMs) 评估框架主要关注图像推理或通用视频理解任务,在很大程度上忽视了图像上下文在视频理解中的重要作用。为了弥补这一差距,我们提出了 IV-Bench,这是第一个用于评估图像驱动的视频感知和推理能力的全面基准。IV-Bench 包含 967 个视频,这些视频与跨越 13 个任务(7 个感知任务和 6 个推理任务)和 5 个代表性类别的 2,585 个精心标注的图像-文本查询配对。对最先进的开源(例如 InternVL2.5、Qwen2.5-VL)和闭源(例如 GPT-4o、Gemini2-Flash 和 Gemini2-Pro)MLLMs 的广泛评估表明,当前模型在图像驱动的视频感知和推理方面表现显著不足,最高仅达到 28.9% 的准确率。进一步的分析揭示了影响模型在 IV-Bench 上性能的关键因素,包括推理模式、帧数和分辨率。此外,通过简单的数据合成方法,我们证明了 IV-Bench 的挑战不仅仅在于训练过程中对齐数据格式。这些发现共同为未来的研究提供了宝贵的见解。我们的代码和数据已发布在 https://github.com/multimodal-art-projection/IV-Bench。