展开空间认知:评估视觉模拟上的多模态模型

发表
Jiawei GuJiawei Gu 提交
作者: Linjie Li, Mahtab Bigverdi, Jiawei GuJiawei Gu, Zixian Ma, Yinuo Yang, Ziang Li, Yejin Choi, Ranjay Krishna

摘要

空间认知是人类智能的根本能力,它使我们能够通过视觉模拟而非仅仅依靠言语推理来解决问题。然而,现有的 AI 基准主要评估言语推理,忽略了非言语、多步骤视觉模拟的复杂性。我们引入了 STARE(Spatial Transformations and Reasoning Evaluation),一个旨在严格评估多模态大型语言模型在通过多步视觉模拟能更好解决的任务上的基准。STARE 包含 4K 个任务,涵盖基础几何变换(2D 和 3D)、集成空间推理(立方体展开图折叠和七巧板拼图)以及真实世界空间推理(透视和时间推理),反映了实际认知挑战,如物体组装、机械图纸解释和日常空间导航。我们的评估表明,模型在较简单的 2D 变换推理方面表现出色,但在 3D 立方体展开图折叠和七巧板拼图等需要多步视觉模拟的更复杂任务上,其表现接近随机猜测。人类在复杂任务上实现了近乎完美的准确率,但需要相当长的时间(长达 28.9 秒),而在中间视觉模拟的帮助下则显著加速(平均减少 7.5 秒)。相比之下,模型的视觉模拟增益表现不一致,在大多数任务上有所改进,但在七巧板拼图(GPT-4o,o1)和立方体展开图折叠(Claude-3.5,Gemini-2.0 Flash)等特定情况下却有所下降,这表明模型可能不知道如何有效地利用中间视觉信息。
查看 arXiv 页面查看 PDF

评论

Jiawei GuJiawei Gu
论文作者
论文提交者

STARE 的结构旨在全面涵盖多个复杂级别的空间推理,从基本的几何变换(2D 和 3D)到更综合的任务(立方体展开图折叠和七巧板拼图)以及现实世界的空间推理场景(时间帧和透视推理)。