⏶16
InternVLA-M1:一个用于通才机器人策略的空间引导视觉-语言-动作框架
发表
由
taesiri 提交

作者:
Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia,
Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang,
Ziqin Wang, Xueyuan Wei, Chao Wu,
Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou,
Yangkun Zhu


摘要
AI 生成总结
InternVLA-M1 是一个空间地面和机器人控制的统一框架,通过空间引导的视觉-语言-动作训练来增强指令遵循机器人,在各种任务和模拟中实现了显著的改进。我们提出了 InternVLA-M1,一个统一的空间对齐和机器人控制框架,将指令跟随机器人推向可扩展、通用智能。其核心思想是空间引导的视觉-语言-动作训练,其中空间对齐作为指令和机器人动作之间的关键联系。InternVLA-M1 采用两阶段流程:(i) 在超过 230 万个空间推理数据上进行空间对齐预训练,通过将指令与视觉、独立于载体的位置对齐来确定“在哪里行动”;(ii) 进行空间引导的动作后训练,通过即插即用的空间提示生成感知载体的动作来决定“如何行动”。这种空间引导的训练方法带来了持续的收益:InternVLA-M1 在 SimplerEnv Google Robot 上比没有空间引导的变体提高了 +14.6%,在 WidowX 上提高了 +17%,在 LIBERO Franka 上提高了 +4.3%,同时在盒子、点和轨迹预测方面表现出更强的空间推理能力。为了进一步扩展指令跟随,我们构建了一个模拟引擎来收集 244K 个可泛化的抓取和放置的片段,使得在 200 个任务和 3K+ 个物体上平均提高了 6.2%。在真实的簇状抓取和放置任务中,InternVLA-M1 提高了 7.3%,并通过合成联合训练,在未见过的物体和新配置上实现了 +20.6% 的提升。此外,在长视野推理密集型场景中,它比现有工作提高了 10% 以上。这些结果突显了空间引导训练作为可扩展且有弹性的通用机器人学家的统一原则。代码和模型可在 https://github.com/InternRobotics/InternVLA-M1 获取。
我们介绍了 InternVLA-M1,一个用于空间接地和机器人控制的统一框架,将指令遵循机器人推向可扩展、通用智能。其核心思想是空间引导的视觉-语言-动作训练,其中空间接地作为指令与机器人动作之间的关键连接。InternVLA-M1 采用两阶段流水线:(i) 在超过 230 万个空间推理数据上进行空间接地预训练,通过将指令与视觉的、与具身无关的位置对齐来确定“在哪里行动”;(ii) 通过即插即用的空间提示生成具身感知的动作,进行空间引导的动作后训练来决定“如何行动”。这种空间引导的训练方法带来了持续的收益:InternVLA-M1 在 SimplerEnv Google Robot 上比不使用空间引导的变体高出 +14.6%,在 WidowX 上高出 +17%,在 LIBERO Franka 上高出 +4.3%,同时在盒子、点和轨迹预测方面表现出更强的空间推理能力。为了进一步扩展指令遵循能力,我们构建了一个模拟引擎,收集了 24.4 万个可泛化的抓取和放置的 Episodes,使得在 200 个任务和 3000 多个对象上的平均改进提高了 6.2%。在现实世界的聚集抓取和放置任务中,InternVLA-M1 提高了 7.3%,并且通过合成协同训练,在未见过的对象和新配置上实现了 +20.6% 的提升。此外,在长时程的、推理密集型的场景中,其表现比现有工作高出 10% 以上。这些结果凸显了空间引导训练作为可扩展和具有弹性的通用机器人的统一原则。