⏶24
UniVLA:利用以任务为中心的潜在动作学习泛化行动
发表
由
Qingwen Bu 提交
作者:
Qingwen Bu, Yanting Yang,
Jisong Cai,
Shenyuan Gao,
Guanghui Ren,
Maoqing Yao,
Ping Luo,
Hongyang Li
摘要
通用机器人应能在多种环境中有效地执行任务。然而,大多数现有方法高度依赖扩展带有动作标注的数据来增强其能力。因此,它们通常局限于单一的物理规格,并且难以学习跨越不同具身和环境的可转移知识。为了应对这些局限性,我们提出了 UniVLA,这是一个新的用于学习跨具身视觉-语言-动作 (VLA) 策略的框架。我们的关键创新在于,通过潜在动作模型从视频中提取以任务为中心的动作表示。这使我们能够利用跨越广泛具身和视角的大量数据。为了减轻与任务无关的动态的影响,我们引入语言指令,并在 DINO 特征空间中建立了一个潜在动作模型。从互联网规模的视频中学习而来,该通用策略可以通过高效的潜在动作解码部署到各种机器人上。我们在多个操作和导航基准上,以及在真实机器人部署中,取得了最先进的结果。UniVLA 在性能上优于 OpenVLA,使用的预训练计算量不到其 1/20,下游数据量不到其 1/10。随着异构数据(甚至包括人类视频)被整合到训练流程中,观察到持续的性能提升。这些结果突显了 UniVLA 在促进可扩展且高效的机器人策略学习方面的潜力。
从任何来源学习,并在任何地方行动。
从跨实体视频中提取高度可迁移的、以任务为中心的潜在动作。
通过计算高效的训练,同时擅长操纵和导航。