⏶36
OmniSpatial: 迈向视觉语言模型的全面空间推理基准
发表
由
Zekun Qi 提交

作者:
Mengdi Jia,
Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi


摘要
空间推理是认知心理学的一个关键方面,并且仍然是当前视觉语言模型(VLMs)的主要瓶颈。尽管大量研究旨在评估或改进VLM对基本空间关系(例如区分左右、远近和物体计数)的理解,但这些任务仅代表空间推理的最基本层面。在这项工作中,我们引入了OmniSpatial,这是一个基于认知心理学构建的全面且具有挑战性的空间推理基准。OmniSpatial涵盖四个主要类别:动态推理、复杂空间逻辑、空间交互和透视取景,并包含50个细粒度子类别。通过互联网数据抓取和仔细的手动标注,我们构建了超过1.5K个问答对。大量实验表明,无论是开源还是闭源的VLM,以及现有的推理和空间理解模型,在全面的空间理解方面都表现出显著的局限性。我们进一步分析了失败案例,并提出了未来研究的潜在方向。
Github: https://github.com/qizekun/OmniSpatial
项目主页: https://qizekun.github.io/omnispatial/
数据集: https://huggingface.co/qizekun/datasets/OmniSpatial