⏶23
villa-X:增强视觉-语言-动作模型中的潜在动作建模
发表
由
Pushi 提交
作者: Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian
摘要
视觉-语言-动作 (Visual-Language-Action, VLA) 模型已成为一种流行的范式,用于学习能够遵循语言指令并泛化到新场景的机器人操纵策略。近期的工作已经开始探索将潜在动作——一种两帧之间视觉变化的抽象表示——融入到 VLA 预训练中。在本文中,我们介绍了 villa-X,这是一个新颖的视觉-语言-潜在动作 (Visual-Language-Latent-Action, ViLLA) 框架,它推进了用于学习可泛化机器人操纵策略的潜在动作建模。我们的方法同时改进了潜在动作的学习方式及其融入 VLA 预训练的方式。总的来说,这些贡献使 villa-X 能够在包括 SIMPLER 和 LIBERO 在内的模拟环境中,以及在包括夹爪和灵巧手操纵在内的两种真实世界机器人设置上,都取得了卓越的性能。我们相信 ViLLA 范式具有巨大的潜力,我们的 villa-X 也为未来的研究提供了坚实的基础。
视觉-语言-动作 (Visual-Language-Action, VLA) 模型已成为一种流行的范式,用于学习能够遵循语言指令并泛化到新场景的机器人操纵策略。近期工作已开始探索将潜藏动作(即两帧之间视觉变化的抽象表示)融入 VLA 预训练中。在本文中,我们介绍了一种名为 villa-X 的新型视觉-语言-潜藏动作 (Visual-Language-Latent-Action, ViLLA) 框架,该框架改进了用于学习可泛化机器人操纵策略的潜藏动作建模。我们的方法既改进了潜藏动作的学习方式,也改进了其融入 VLA 预训练的方式。这些贡献共同使 villa-X 能够在包括 SIMPLER 和 LIBERO 在内的多个模拟环境中,以及在包括夹爪和灵巧手操纵的两种真实世界机器人装置上,取得卓越的性能。我们相信 ViLLA 范式具有巨大潜力,而我们的 villa-X 为未来的研究提供了坚实的基础。