⏶14
使用视觉语言世界模型进行带推理的规划
发表
由
Delong Chen 提交
作者:
Delong Chen,
Theo Moutakanni,
Willy Chung, Yejin Bang, Ziwei Ji,
Allen Bolourchi, Pascale Fung

摘要
有效的规划需要强大的世界模型,但能够理解和推理具有语义和时间抽象的行为的高级世界模型仍处于高度欠发达状态。我们引入了视觉语言世界模型 (VLWM),这是一个为自然视频中的语言基础世界建模而训练的基石模型。给定视觉观察,VLWM 首先推断总体目标成就,然后预测一个由交错的行为和世界状态变化组成的轨迹。这些目标通过迭代式 LLM 自我细化提取,该细化以“标题树”表示的压缩未来观察为条件。VLWM 同时学习策略模型和动力学模型,前者分别促进反应式系统-1 计划解码,后者则通过成本最小化促进反思式系统-2 规划。成本评估了 VLWM 模拟得出的假设未来状态与预期目标状态之间的语义距离,并由我们以自我监督方式训练的评论模型进行衡量。VLWM 在基准评估和我们提出的 PlannerArena 人类评估上均实现了最先进的视觉辅助规划 (VPA) 性能,其中系统-2 在系统-1 的基础上将 Elo 分数提高了 27%。VLWM 模型在 RoboVQA 和 WorldPrediction 基准测试上也优于强大的 VLM 基线。
https://www.arxiv.org/abs/2509.02722