⏶23
统一的视觉-语言-行动模型
发表
由
Wang Yuqi 提交
作者:
Yuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang
摘要
视觉-语言-动作模型(VLA)因其在推进机器人操作方面的潜力而获得了广泛关注。然而,以往的方法主要依赖于视觉-语言模型(VLM)的通用理解能力来生成动作信号,往往忽视了视觉观测中蕴含的丰富时序和因果结构。在本文中,我们提出了 UniVLA,一个统一且原生的多模态 VLA 模型,它将视觉、语言和动作信号自回归地建模为离散的 token 序列。这种公式化方法使得灵活的多模态任务学习成为可能,尤其是从大规模视频数据中学习。通过在后训练期间融入世界建模,UniVLA 从视频中捕获因果动态,有助于有效迁移到下游策略学习——特别是对于长周期任务。我们的方法在几个广泛使用的模拟基准上取得了新的最先进结果,包括 CALVIN、LIBERO 和 Simplenv-Bridge,显著超越了以往的方法。例如,UniVLA 在 LIBERO 基准上取得了 95.5% 的平均成功率,超过了 pi0-FAST 的 85.5%。我们进一步展示了它在真实世界的 ALOHA 操作和自动驾驶中的广泛适用性。
统一的视觉-语言-动作模型