VLMs 在视觉空间智能方面还有多远?——一个基于基准的视角

发表
Songsong YuSongsong Yu 提交
作者: Songsong YuSongsong Yu, Yuxin ChenYuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu

摘要

AI 生成总结
研究调查了视觉语言模型中的视觉空间推理,强调了感知能力和推理能力之间的差距,并引入 SIBench 作为未来研究的基准。
视觉空间推理(VSR)是一项核心的人类认知能力,也是推进具身智能和自主系统的关键要求。尽管在视觉语言模型(VLM)方面取得了最新进展,但实现人类水平的VSR仍然极具挑战性,因为三维空间的表示和推理非常复杂。在本文中,我们对VLM中的VSR进行了系统调查,包括对输入模态、模型架构、训练策略和推理机制的现有方法的审查。此外,我们将空间智能分为三个能力级别,即基本感知、空间理解和空间规划,并整理了SIBench,一个包含近20个开源数据集、跨23个任务设置的空间智能基准。对最先进VLM的实验揭示了感知和推理之间明显的差距,模型在基本感知任务上表现出色,但在理解和规划任务上持续表现不佳,尤其是在数值估计、多视图推理、时间动态和空间想象方面。这些发现突显了在实现空间智能方面仍然存在的巨大挑战,同时为推动该领域的未来研究提供了系统性的路线图和全面的基准。本研究的相关资源可在https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/获取。
查看 arXiv 页面查看 PDF
VLMs 在视觉空间智能方面还有多远?——一个基于基准的视角

评论

Songsong YuSongsong Yu
论文作者
论文提交者
VLMs 的视觉空间智能还有多远?以基准为导向的视角

methods2.0_calibri

本文探讨了视觉空间推理(VSR)的挑战和进展,VSR 是人类和自主系统的一项关键认知能力。作者全面回顾了 VSR 中的现有方法,涵盖输入模态、模型架构、训练策略和推理技术。他们引入了 SIBench,一个集成了近 20 个开源数据集的全新基准,涵盖 23 个任务设置。对最先进 VLMs 的实验结果凸显了感知任务(模型表现良好)与推理任务(如数值估计和多视图推理,模型在此类任务中遇到困难)之间存在的明显差距。本文强调了空间智能方面的持续挑战,并为未来的研究提供了路线图。