⏶12
BridgeVLA:用于视觉-语言模型中高效三维操作学习的输入-输出对齐
发表
由
Li Peiyan 提交
作者:
Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
摘要
最近,利用预训练的视觉-语言模型(VLM)构建视觉-语言-动作(VLA)模型已成为一种有前途的有效机器人操作学习方法。然而,很少有方法将 3D 信号整合到 VLM 中进行动作预测,而且它们未能充分利用 3D 数据固有的空间结构,导致样本效率低下。在本文中,我们介绍了 BridgeVLA,一种新颖的 3D VLA 模型,它 (1) 将 3D 输入投影到多个 2D 图像,确保输入与 VLM 主干网络对齐,并且 (2) 利用 2D 热图进行动作预测,在一致的 2D 图像空间内统一输入和输出空间。此外,我们提出了一种可扩展的预训练方法,使得 VLM 主干网络在下游策略学习之前具备预测 2D 热图的能力。广泛的实验表明,所提出的方法能够高效且有效地学习 3D 操作。BridgeVLA 在三个模拟基准上优于最先进的基线方法。在 RLBench 中,它将平均成功率从 81.4% 提高到 88.2%。在 COLOSSEUM 中,它在具有挑战性的泛化设置中表现出显著更好的性能,将平均成功率从 56.7% 提升到 64.0%。在 GemBench 中,它在平均成功率方面超过了所有对比的基线方法。在真实机器人实验中,BridgeVLA 平均比最先进的基线方法高出 32%。它在多种分布外设置(包括视觉干扰和未见指令)中稳健地泛化。值得注意的是,它仅通过每个任务 3 条轨迹,即可在 10 多个任务上实现 96.8% 的成功率,突显了其非凡的样本效率。项目网站:https://bridgevla.github.io/
💥 我们能否将 2D VLA 泛化与 3D 策略效率相结合?
推出 BridgeVLA – 一款连接预训练 VLM 主干网络和 3D VLA 的 3D 视觉语言动作模型。重用 VLM 权重还不够 – 需要更智能的设计。
🚀 成果:
· RLBench、COLOSSEUM、GemBench 第一名 🏆
· 真实世界性能比基线提升 +32% 🔧
· 仅用 3 个演示轨迹实现 96.8% 的成功率 😱
📦 代码、数据、模型开源。
👉 https://bridgevla.github.io