⏶11
ViewSpatial-Bench:评估视觉-语言模型中的多视角空间定位能力
发表
由
Yongliang Shen 提交
作者: Dingming Li,
Hongxing Li, Zixuan Wang,
Yuchen Yan, Hang Zhang,
Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang,
Yongliang Shen, Weiming Lu, Yueting Zhuang


摘要
视觉语言模型(VLMs)在理解和推理视觉内容方面展现出非凡的能力,但在需要跨视角理解和空间推理的任务中仍然存在重大挑战。我们发现一个关键限制:当前的 VLM 主要擅长以自我为中心的空间推理(从摄像机的视角),但在需要采用另一个实体的空间参考框架时,却无法泛化到异心视角。我们引入了 ViewSpatial-Bench,这是第一个专门为跨五个不同任务类型的多视角空间定位识别评估而设计的综合基准,并由自动化 3D 注释管道支持,该管道生成精确的方向标签。对 ViewSpatial-Bench 上各种 VLM 的全面评估揭示了显著的性能差异:模型在摄像机视角任务上表现合理,但在从人类视角进行推理时准确率降低。通过在我们多视角空间数据集上对 VLM 进行微调,我们在跨任务上的整体性能提高了 46.24%,突显了我们方法的有效性。我们的工作为具身 AI 系统中的空间智能建立了关键基准,并提供了实证证据,表明建模 3D 空间关系能增强 VLM 相应的空间理解能力。
项目: https://zju-real.github.io/ViewSpatial-Page/
代码: https://github.com/ZJU-REAL/ViewSpatial-Bench