⏶10
MindJourney:利用世界模型进行测试时扩展以实现空间推理
发表
由
Yuncong Yang 提交
作者: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
摘要
3D 空间中的空间推理是人类认知的核心,对于导航和操作等具身任务不可或缺。然而,最先进的视觉语言模型(VLM)常常在一些简单任务上遇到困难,例如预测在一次自我中心运动后场景会是什么样子:它们感知的是 2D 图像,但缺乏对 3D 动态的内部模型。因此,我们提出了 MindJourney,一个测试时扩展框架,它通过将视觉语言模型与一个基于视频扩散的可控世界模型相结合,赋予其这种缺失的能力。VLM 迭代地勾画出简洁的相机轨迹,而世界模型则在每一步合成相应的视图。然后,VLM 基于在交互式探索过程中收集到的多视图证据进行推理。无需任何微调,我们的 MindJourney 在代表性的空间推理基准 SAT 上实现了平均超过 8% 的性能提升,这表明将 VLM 与世界模型配对进行测试时扩展,为实现稳健的 3D 推理提供了一条简单、即插即用的途径。同时,我们的方法也改进了通过强化学习训练的 VLM 在测试时推理的性能,这证明了我们利用世界模型进行测试时扩展的方法的潜力。
测试时缩放(Test-Time Scaling)在代码生成和解决数学问题等任务中非常有效,但在3D物理世界中的任务呢?
我们很高兴推出MindJourney,一个新颖的测试时缩放框架,它利用世界模型作为3D空间中的想象力来源来解决空间推理问题。
项目页面:https://umass-embodied-agi.github.io/MindJourney/
代码:https://github.com/UMass-Embodied-AGI/MindJourney