有限视角下的空间心理建模

发表
Qineng WangQineng Wang 提交
作者: Baiqiao Yin, Qineng WangQineng Wang, Pingyue Zhang, Jianshu ZhangJianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan ChandrasegaranKeshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei

摘要

视觉语言模型(VLM)能否像人类一样,仅凭少量视角就想象出完整的场景?人类会形成空间心理模型,即对不可见空间的内部表征,以便对布局、透视和运动进行推理。我们新的MindCube基准测试包含了3,268张图像中的21,154个问题,揭示了这一关键差距,现有VLM在此表现出接近随机的性能。借助MindCube,我们系统地评估了VLM在构建鲁棒空间心理模型方面的能力,具体通过表示位置(认知地图)、方向(透视采纳)和动态(“假设”运动的心理模拟)来实现。随后,我们探索了三种方法来帮助VLM近似空间心理模型,包括未见的中间视图、自然语言推理链和认知地图。显著的改进来自于一种协同方法——“先绘图后推理”,该方法联合训练模型,使其首先生成认知地图,然后在此基础上进行推理。通过训练模型对这些内部地图进行推理,我们将准确率从37.8%提升到60.8%(增加了23.0%)。添加强化学习将性能进一步提升至70.7%(增加了32.9%)。我们的关键见解是,这种空间心理模型的构建(即积极构建和利用内部结构化空间表征,并结合灵活的推理过程)显著提高了对不可观测空间的理解。
查看 arXiv 页面查看 PDF

评论

Qineng WangQineng Wang
论文作者
论文提交者

视觉语言模型(VLMs)能否像人类一样,仅凭少量视角就想象出完整的场景?人类会形成空间心理模型——对未见空间的内部表征——以便推断布局、视角和运动。我们新的MindCube基准测试包含3,268张图片上的21,154个问题,揭示了这一关键差距,即现有VLMs在此表现出接近随机的性能。利用MindCube,我们系统地评估了VLMs通过表示位置(认知地图)、方向(视角采纳)和动态(对“假设”运动的心理模拟)来构建鲁棒空间心理模型的能力。随后,我们探索了帮助VLMs近似空间心理模型的三种方法,包括未见的中间视角、自然语言推理链和认知地图。显著的改进来自于一种协同方法——“先建图后推理”,该方法联合训练模型,使其首先生成认知地图,然后在此基础上进行推理。通过训练模型对这些内部地图进行推理,我们将准确率从37.8%提升到60.8%(+23.0%)。增加强化学习将性能进一步推高至70.7%(+32.9%)。我们的关键见解是,这种空间心理模型的构建——即积极构建并利用内部结构化空间表征,结合灵活的推理过程——显著提升了对不可见空间的理解。