VLA-0:无需修改即可构建最先进的 VLA

发表
Ankit GoyalAnkit Goyal 提交
作者: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos

摘要

AI 生成总结
一种简单的 VLA 模型 VLA-0,通过将动作表示为文本,无需额外修改或大规模训练,在机器人操作任务上优于更复杂的模型。
视觉-语言-动作模型(VLA)在实现通用机器人操作方面展现出巨大潜力。然而,构建它们的最佳方法仍然是一个悬而未决的问题。当前的方法通常会增加复杂性,例如用动作 token 修改现有视觉语言模型(VLM)的词汇表或引入特殊的动作头。奇怪的是,将动作直接表示为文本的最简单策略在很大程度上仍未被探索。这项工作引入了 VLA-0 来研究这一想法。我们发现 VLA-0 不仅有效;而且出奇地强大。通过正确的设计,VLA-0 的表现优于更复杂的方法。在 LIBERO 上,一个用于评估 VLA 的流行基准,VLA-0 的表现优于所有在相同机器人数据上训练的现有方法,包括 pi_0.5-KI、OpenVLA-OFT 和 SmolVLA。此外,在没有大规模机器人特定训练的情况下,它的表现优于在大量机器人数据上训练的方法,例如 pi_0.5-KI、pi_0、GR00T-N1 和 MolmoAct。这些发现也转化为现实世界,VLA-0 在 SmolVLA(一个在大规模真实数据上预训练的 VLA 模型)上的表现优于 SmolVLA。本文总结了我们意想不到的发现,并阐述了实现这种简单但强大的 VLA 设计的高性能所需的技术。视觉结果、代码和训练好的模型可在以下网址获取:https://vla0.github.io/
查看 arXiv 页面查看 PDF

评论