MMSI-Bench:多图像空间智能基准

发表
Runsen XuRunsen Xu 提交
作者: Sihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang

摘要

空间智能对于在复杂物理世界中运行的多模态大型语言模型(MLLM)至关重要。然而,现有的基准测试仅探查单图像关系,因此无法评估现实世界部署所需的多图像空间推理能力。我们引入 MMSI-Bench,这是一个专注于多图像空间智能的 VQA 基准测试。六位 3D 视觉研究人员花费超过 300 小时,从超过 12 万张图像中精心制作了 1,000 个具有挑战性、无歧义的多项选择题,每个问题都配有精心设计的干扰项和逐步推理过程。我们进行了广泛的实验,并全面评估了 34 个开源和专有 MLLM,观察到明显的差距:最强的开源模型准确率约为 30%,OpenAI 的 o3 推理模型达到 40%,而人类得分为 97%。这些结果强调了 MMSI-Bench 的挑战性以及未来研究的巨大提升空间。利用标注的推理过程,我们还提供了一个自动化的错误分析流程,诊断了四种主要的失败模式,包括 (1) 接地(grounding)错误,(2) 重叠匹配和场景重建错误,(3) 情境转换推理错误,以及 (4) 空间逻辑错误,为推进多图像空间智能提供了宝贵的见解。项目主页:https://runsenxu.com/projects/MMSI_Bench
查看 arXiv 页面查看 PDF

评论

Runsen XuRunsen Xu
论文提交者

一个全面而新颖的空间智能基准。项目页面:https://runsenxu.com/projects/MMSI_Bench