⏶28
LoHoVLA:用于长周期具身任务的统一视觉-语言-动作模型
发表
由
KouSiqi 提交
作者:
Yi Yang, Jiaxuan Sun,
Siqi Kou, Yihan Wang,
Zhijie Deng

摘要
现实世界的具身智能体面临长周期任务,其特点是高层次目标需要多步解决方案而非单一动作。成功完成这些任务既需要高层次任务规划(即将目标分解为子任务),也需要低层次运动控制(即生成精确的机器人动作)。尽管现有的视觉语言动作 (VLA) 模型和分层架构在具身任务中具有潜力,但前者在规划方面常表现不佳,后者可能面临协调问题,两者都阻碍了性能。为了克服这些局限性,我们引入了一个新的用于长周期任务的统一 VLA 框架,名为 LoHoVLA。LoHoVLA 利用一个大型预训练视觉语言模型 (VLM) 作为骨干,分别联合生成用于子任务生成的语言令牌和用于机器人动作预测的动作令牌。这种共享表示促进了跨任务的更好泛化。此外,LoHoVLA 采用了分层闭环控制机制,以减轻源自高层规划和低层控制的错误。为了训练 LoHoVLA,我们引入了 LoHoSet 数据集,该数据集基于 Ravens 模拟器构建,包含 20 个长周期任务,每个任务都有 1,000 个专家演示,包括视觉观测、语言目标、子任务和机器人动作。实验结果表明,在 Ravens 模拟器中的长周期具身任务上,LoHoVLA 显著超越了分层和标准 VLA 方法。这些发现强调了统一架构在推动可泛化具身智能方面的潜力。
Arxiv: https://arxiv.org/abs/2506.00411