⏶14
InstructVLA:从理解到操纵的视觉-语言-动作指令微调
发表
由
Shuai Yang 提交

作者:
Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang

摘要
为了在现实世界中有效运行,机器人必须将多模态推理与精确动作生成相结合。然而,现有的视觉-语言-动作(VLA)模型往往顾此失彼,将其能力限制在特定任务的操作数据上,并且遭受预训练视觉-语言能力的灾难性遗忘。为了弥合这一差距,我们引入了 InstructVLA,一个端到端的 VLA 模型,它保留了大型视觉-语言模型(VLM)的灵活推理能力,同时提供领先的操作性能。InstructVLA 引入了一种新颖的训练范式,即视觉-语言-动作指令调优(VLA-IT),它采用多模态训练和专家混合适应,以在标准 VLM 语料库和精选的 65 万样本 VLA-IT 数据集上共同优化文本推理和动作生成。在域内 SimplerEnv 任务上,InstructVLA 比 SpatialVLA 提高了 30.5%。为了评估泛化能力,我们引入了 SimplerEnv-Instruct,一个包含 80 项任务的基准测试,需要闭环控制和高级指令理解,它比微调后的 OpenVLA 性能提高了 92%,比由 GPT-4o 辅助的动作专家性能提高了 29%。此外,InstructVLA 在多模态任务上超越了基线 VLM,并通过利用文本推理来提高模拟和现实世界环境中的操作性能,展示了推理时间扩展能力。这些结果表明 InstructVLA 在连接直观和可控的人机交互与高效策略学习方面的潜力。
用于推理引导操作的新数据集、基准和 VLA 模型!