⏶27
视觉语言模型是否拥有内部世界模型?走向原子化评估
发表
由
Zhiting Hu 提交
作者:
Qiyue Gao, Xinyu Pi, Kevin Liu,
Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun,
Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai,
Chuanyang Jin, Jiannan Xiang,
Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu,
Ziqiao Ma, Lianhui Qin, Zhiting Hu



摘要
内部世界模型(WMs)使智能体能够理解世界状态并预测变化,是高级审慎推理的基础。近期的大型视觉-语言模型(VLMs),如OpenAI o3、GPT-4o和Gemini,展现出作为通用世界模型(WMs)的潜力。尽管最新研究已评估并指出其在视觉理解等特定能力上的局限性,但对VLMs基本世界模型能力的系统性评估仍然缺失。借鉴比较心理学和认知科学,我们提出了一个两阶段框架,评估感知(视觉、空间、时间、定量和运动)和预测(机制模拟、传递推理、组合推理),以提供对VLMs作为WMs的原子级评估。在此框架指导下,我们引入了WM-ABench,一个大规模基准,包含6个不同模拟环境中的23个细粒度评估维度,并进行受控反事实模拟。通过对15个最新商业和开源VLM进行的660次实验,我们发现这些模型在基本世界建模能力上表现出显著局限性。例如,几乎所有模型在区分运动轨迹时都表现出接近随机的准确率。此外,它们缺乏解耦理解——例如,一些模型倾向于认为蓝色物体比绿色物体移动得更快。更丰富的结果和分析揭示了VLM与人类水平世界建模之间存在的显著差距。
项目主页: https://wm-abench.maitrix.org
数据集 (Huggingface): https://huggingface.co/datasets/maitrix-org/WM-ABench
论文: https://arxiv.org/abs/2506.21876