⏶13
ViPlan:基于符号谓词和视觉语言模型的视觉规划基准
发表
由
Matteo Merler 提交

作者:
Matteo Merler,
Nicola Dainese,
Minttu Alakuijala,
Giovanni Bonetta,
Pietro Ferrazzi, Yu Tian,
Bernardo Magnini, Pekka Marttinen


摘要
将大语言模型与符号规划器集成是一个很有前景的方向,与在自然语言中进行规划相比,可以获得可验证和接地的规划。最近的工作也将这一思想扩展到使用视觉-语言模型(VLM)的视觉领域。然而,VLM接地的符号方法与直接使用VLM进行规划的方法之间的严格比较一直受到通用环境、评估协议和模型覆盖范围不足的阻碍。我们引入了ViPlan,这是第一个用于基于符号谓词和VLM的视觉规划的开源基准。ViPlan包含了一系列难度递增的任务,涉及两个领域:经典积木世界规划问题的视觉变体,以及模拟家庭机器人环境。我们对九个涵盖不同规模的开源VLM系列以及部分精选的闭源模型进行了基准测试,评估了VLM接地的符号规划方法以及直接使用模型来提出行动的方法。我们发现,在对图像接地精度至关重要的积木世界任务中,符号规划的表现优于直接VLM规划;而在常识知识和从错误中恢复的能力有益的家庭机器人任务中,情况则相反。最后,我们发现,在大多数模型和方法中,使用思维链提示并没有带来显著的好处,这表明当前的VLM在视觉推理方面仍然存在困难。




本文探索了使用视觉语言模型 (VLM) 进行规划,既将它们用于生成动作,也作为经典规划器的基础。我们提出了两个任务来评估最先进的 VLM:一个经典规划问题 (Blocksworld) 和一个机器人家庭模拟器。我们发现,作为规划器的 VLM 方法在家庭环境中表现良好,能够生成连贯的计划,但在 Blocksworld 中则失败了,因为后者的目标更抽象。这表明 VLM 可以在家庭任务中模仿一种涌现的世界模型,但这并不能泛化。我们进一步测试了 CoT (思维链) 提示的影响,令人惊讶地发现其效果甚微或没有效果,这进一步证明了 VLM 在推理能力上不如大型语言模型 (LLM)。