CAPTURe:通过遮挡对象计数评估视觉语言模型中的空间推理

发表
Jaemin ChoJaemin Cho 提交
作者: Atin Pothiraj, Elias Stengel-Eskin, Jaemin ChoJaemin Cho, Mohit BansalMohit Bansal

摘要

识别并推理被遮挡(部分或完全隐藏)的物体对于理解视觉场景至关重要,因为遮挡在现实世界环境中频繁发生,并成为空间理解的障碍。为了测试模型推理多个被遮挡物体的能力,我们引入了一项新任务——通过未见区域对模式进行非模态计数(CAPTURe),这要求模型通过推断模式在遮挡物(阻挡部分场景的物体)后面的延续来计数按特定模式排列的物体。CAPTURe既需要识别视觉模式也需要推理,这使其成为评估视觉语言模型(VLMs)是否理解被遮挡模式并具备空间理解技能的有用试验台。通过要求模型推理被遮挡物体,CAPTURe还测试了VLM形成允许其填补缺失信息的世界模型的能力。CAPTURe包括两部分:(1) CAPTURe-real,包含手动筛选的真实物体按模式排列的图像,以及 (2) CAPTURe-synthetic,一个带有生成图案化图像的受控诊断测试。我们在四种强大的VLM(GPT-4o、Intern-VL2、Molmo和Qwen2-VL)上评估了CAPTURe,发现模型在被遮挡和未被遮挡的模式上都难以计数。重要的是,我们发现模型在存在遮挡时表现更差,这表明VLM在推断未见空间关系方面也存在不足:即使是像GPT-4o这样最强的VLM也无法在有遮挡的情况下进行计数。相比之下,我们发现人类在CAPTURe上的错误率非常低。我们还发现,提供被遮挡物体位置的辅助信息可以提高性能,这强调了模型错误既源于处理遮挡的能力不足,也源于在图像中进行计数的困难。
查看 arXiv 页面查看 PDF

评论

Jaemin ChoJaemin Cho
论文作者
论文提交者

代码和数据: https://github.com/atinpothiraj/CAPTURe