⏶45
OmniVideoBench:迈向全景多模态大模型(MLLMs)的视听理解评估
发表
由
Jiaheng Liu 提交
作者: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie,
Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma,
Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
摘要
AI 生成总结
OmniVideoBench 是一个全面的基准测试,用于评估多模态大型语言模型的视听推理能力,解决了模态互补性和逻辑一致性问题。多模态大语言模型(MLLM)的最新进展在视频理解方面展现了巨大的潜力。然而,现有的基准未能全面评估跨音频和视觉模态的协同推理能力,通常会忽略其中一种模态,或以逻辑不一致的方式集成它们。为了弥合这一差距,我们引入了OmniVideoBench,这是一个大规模、设计严谨的基准,专门用于评估协同音视频理解,并着重于模态互补性和逻辑一致性。具体来说,OmniVideoBench包含1000个高质量的问答(QA)对,每个对都带有逐步的推理轨迹,来源于628个不同的视频,时长从几秒到30分钟不等,并经过手动验证以保证完全的正确性和唯一性。此外,OmniVideoBench包含13种精心设计的题型,涵盖了时间推理、空间定位、计数、因果推断、摘要等,从而捕捉了视频理解的核心挑战。对OmniVideoBench上的多个MLLM的评估揭示了模型性能与人类推理之间存在显著的差距,开源模型的表现明显落后于闭源模型,这凸显了真正的音视频推理的固有难度。我们将发布OmniVideoBench,以促进具有更强、更通用的推理能力的MLLM的发展。
多模态大型语言模型(MLLMs)的最新进展在视频理解方面展现了巨大的潜力。然而,现有的基准测试在评估跨音频和视觉模态的真正协同推理方面往往不足。它们可能会忽略一种模态,或者无法以逻辑一致的方式整合它们。为了解决这个问题,我们引入了 OmniVideoBench,这是一个大规模、经过严格设计的基准测试,用于评估协同视听理解。它高度重视模态互补性和逻辑一致性。该基准测试包含来自 628 个不同视频(时长从几秒到 30 分钟不等)的 1,000 对高质量问答(QA),每对都附有分步推理的注解。我们对各种 MLLMs 的评估揭示了当前模型性能与人类水平推理之间存在显著差距,突显了真正的视听智能的挑战。