⏶12
SpatialScore: 迈向多模态空间理解的统一评估
发表
由
Haoning Wu 提交

作者:
Haoning Wu, Xiao Huang,
Yaohui Chen, Ya Zhang, Yanfeng Wang, Weidi Xie

摘要
多模态大型语言模型(MLLMs)在问答任务中取得了令人瞩目的成功,然而,它们在空间理解方面的能力尚未得到充分探索。这项工作探讨了一个关键问题:现有的 MLLMs 是否具备 3D 空间感知和理解能力?具体而言,我们在本文中做出以下贡献:(i) 我们引入 VGBench,一个专门用于评估 MLLMs 视觉几何感知能力的基准,例如相机姿态和运动估计;(ii) 我们提出 SpatialScore,迄今为止最全面、最多样化的多模态空间理解基准,将 VGBench 与其他 11 个现有数据集的相关数据集成。该基准包含涵盖各种空间理解任务、模态和问答格式的 2.8 万个样本,以及一个精心策划的具有挑战性的子集 SpatialScore-Hard;(iii) 我们开发 SpatialAgent,一个新颖的多智能体系统,集成了 9 种用于空间理解的专用工具,支持 Plan-Execute 和 ReAct 两种推理范式;(iv) 我们进行大量评估,以揭示空间推理中持续存在的挑战,同时证明 SpatialAgent 的有效性。我们相信 SpatialScore 将提供有价值的见解,并作为 MLLMs 下一代发展的严格基准。

项目页面: https://haoningwu3639.github.io/SpatialScore/
论文: https://arxiv.org/abs/2505.17012/
代码: https://github.com/haoningwu3639/SpatialScore/
数据: https://huggingface.co/datasets/haoningwu/SpatialScore
我们目前正在整理数据和代码,预计将在1-2周内开源!请持续关注!欢迎联系交流!
综上所述,我们在本文中做出了以下贡献:
(i) 我们提出了 VGBench,这是一个专门用于评估多模态大语言模型 (MLLMs) 在视觉几何感知方面(例如相机位姿和运动估计)能力的基准;
(ii) 我们提出了 SpatialScore,这是迄今为止最全面、最多样化的多模态空间理解基准,它整合了 VGBench 以及来自其他 11 个现有数据集的相关数据。该基准包含 28K 个样本,涵盖了各种空间理解任务、模态和问答格式,并附带一个精心构建的挑战性子集 SpatialScore-Hard;
(iii) 我们开发了 SpatialAgent,这是一个新颖的多智能体系统,集成了 9 个用于空间理解的专业工具,支持 Plan-Execute 和 ReAct 两种推理范式;
(iv) 我们进行了广泛的评估,以揭示空间推理中持续存在的挑战,同时展示了 SpatialAgent 的有效性。