视觉规划:只用图像思考

发表
Han ZhouHan Zhou 提交
作者: Yi XuYi Xu, Chengzu LiChengzu Li, Han ZhouHan Zhou, X WanXingchen Wan, Caiqi ZhangCaiqi Zhang, Anna KorhonenAnna Korhonen, Ivan VulićIvan Vulić

摘要

大型语言模型(LLMs)及其多模态扩展(MLLMs)的最新进展,显著增强了跨各种任务的机器推理能力。然而,这些模型主要依赖纯文本作为表达和构建推理的媒介,即使存在视觉信息也是如此。在这项工作中,我们认为语言并非总是最自然或最有效的推理模态,尤其是在涉及空间和几何信息的任务中。受此启发,我们提出了一种新范式——视觉规划(Visual Planning),它允许通过纯视觉表示进行规划,而独立于文本。在这种范式中,规划通过一系列图像来执行,这些图像以逐步推理的方式编码视觉领域的信息,类似于人类如何草图或可视化未来的行动。我们引入了一种新颖的强化学习框架——通过强化学习实现的视觉规划(Visual Planning via Reinforcement Learning, VPRL),该框架利用 GRPO 进行大型视觉模型的后训练,从而在 FrozenLake、Maze 和 MiniBehavior 等一系列代表性视觉导航任务中显著提高了规划能力。我们的视觉规划范式优于所有在纯文本空间进行推理的其他规划变体。我们的结果表明,视觉规划是一种可行且有前景的基于语言推理的替代方案,为那些受益于直观、基于图像推理的任务开辟了新途径。
查看 arXiv 页面查看 PDF
视觉规划:只用图像思考

评论

Han ZhouHan Zhou
论文作者
论文提交者

视觉规划:只用图像思考

HoPeHoPe
此评论已隐藏。
Di ZhangDi Zhang

酷!