超越识别:评估视觉语言模型中的视觉视角采择

发表
Gracjan GoralGracjan Goral 提交
作者: Gracjan GoralGracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński

摘要

我们利用一套受既有人类测试启发的新型视觉任务,研究了视觉语言模型 (VLM) 执行视觉视角采纳的能力。我们的方法利用精心控制的场景,其中一个单个人形迷你模型与一个单一物体配对。通过系统地改变空间配置——例如物体相对于人形迷你模型的位置以及人形迷你模型的朝向——并使用鸟瞰图和地面视图,我们创建了 144 个独特的视觉任务。每个视觉任务都配有一系列 7 个诊断问题,旨在评估三个层次的视觉认知能力:场景理解、空间推理和视觉视角采纳。我们对包括 GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct 以及 Claude Sonnet 的变体在内的多个最先进模型进行的评估显示,尽管它们在场景理解方面表现出色,但在空间推理方面的性能显著下降,在视角采纳方面的表现进一步恶化。我们的分析表明,表面层的物体识别与复杂视觉任务所需的更深层次的空间和视角推理之间存在差距,这表明在未来的 VLM 开发中需要整合显式几何表示和定制化训练协议。
查看 arXiv 页面查看 PDF
超越识别:评估视觉语言模型中的视觉视角采择

评论

Gracjan GoralGracjan Goral
论文作者
论文提交者

我们正在通过“超越识别”探索VLM(视觉语言模型)空间推理的极限。我们的新论文引入了一个基准,使用受控的人形物体场景来测试视觉透视(visual perspective taking)。虽然像GPT-4o和Llama-3.2这样的模型在场景理解方面表现出色,但它们从人形物体角度进行透视的能力却急剧下降。欢迎查阅!