⏶13
有限视角下的空间心理建模
发表
由
Qineng Wang 提交
作者: Baiqiao Yin,
Qineng Wang, Pingyue Zhang,
Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang,
Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei


摘要
视觉语言模型(VLM)能否像人类一样,仅凭少量视角就想象出完整的场景?人类会形成空间心理模型,即对不可见空间的内部表征,以便对布局、透视和运动进行推理。我们新的MindCube基准测试包含了3,268张图像中的21,154个问题,揭示了这一关键差距,现有VLM在此表现出接近随机的性能。借助MindCube,我们系统地评估了VLM在构建鲁棒空间心理模型方面的能力,具体通过表示位置(认知地图)、方向(透视采纳)和动态(“假设”运动的心理模拟)来实现。随后,我们探索了三种方法来帮助VLM近似空间心理模型,包括未见的中间视图、自然语言推理链和认知地图。显著的改进来自于一种协同方法——“先绘图后推理”,该方法联合训练模型,使其首先生成认知地图,然后在此基础上进行推理。通过训练模型对这些内部地图进行推理,我们将准确率从37.8%提升到60.8%(增加了23.0%)。添加强化学习将性能进一步提升至70.7%(增加了32.9%)。我们的关键见解是,这种空间心理模型的构建(即积极构建和利用内部结构化空间表征,并结合灵活的推理过程)显著提高了对不可观测空间的理解。
视觉语言模型(VLMs)能否像人类一样,仅凭少量视角就想象出完整的场景?人类会形成空间心理模型——对未见空间的内部表征——以便推断布局、视角和运动。我们新的MindCube基准测试包含3,268张图片上的21,154个问题,揭示了这一关键差距,即现有VLMs在此表现出接近随机的性能。利用MindCube,我们系统地评估了VLMs通过表示位置(认知地图)、方向(视角采纳)和动态(对“假设”运动的心理模拟)来构建鲁棒空间心理模型的能力。随后,我们探索了帮助VLMs近似空间心理模型的三种方法,包括未见的中间视角、自然语言推理链和认知地图。显著的改进来自于一种协同方法——“先建图后推理”,该方法联合训练模型,使其首先生成认知地图,然后在此基础上进行推理。通过训练模型对这些内部地图进行推理,我们将准确率从37.8%提升到60.8%(+23.0%)。增加强化学习将性能进一步推高至70.7%(+32.9%)。我们的关键见解是,这种空间心理模型的构建——即积极构建并利用内部结构化空间表征,结合灵活的推理过程——显著提升了对不可见空间的理解。