iFlyBot-VLA 技术报告

发表
taesiritaesiri 提交
作者: Yuan Zhang, Chenyu Xue, Wenjie Xu, Chao Ji, Jiajia wu, Jia Pan

摘要

AI 生成总结
iFlyBot-VLA 是一种大规模 VLA 模型,使用潜在动作模型和双层动作表示来增强 3D 感知和推理能力,在操作任务中实现卓越性能。
我们引入了 iFlyBot-VLA,一个在新颖框架下训练的大规模视觉-语言-动作(VLA)模型。主要贡献如下:(1) 一个在人类和机器人操作视频上彻底训练的潜在动作模型;(2) 一个双层动作表示框架,在训练期间同时监督视觉-语言模型(VLM)和动作专家;(3) 一种混合训练策略,将机器人轨迹数据与通用 QA 和空间 QA 数据集相结合,有效增强了 VLM 主干的 3D 感知和推理能力。具体而言,VLM 被训练来预测两种互补的动作形式:潜在动作,来源于我们预训练在跨实体操作数据上的潜在动作模型,捕捉隐含的高级意图;以及结构化离散动作token,通过连续控制信号的频域变换获得,编码显式低级动态。这种双重监督将语言、视觉和动作的表示空间对齐,使 VLM 能够直接为动作生成做出贡献。在 LIBERO Franka 基准上的实验结果证明了我们框架的优越性,而真实世界评估进一步表明 iFlyBot-VLA 在各种具有挑战性的操作任务中实现了具有竞争力的成功率。此外,我们计划开源我们自建数据集的一部分,以支持社区未来的研究。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们推出了iFlyBot-VLA,一个在新型框架下训练的大规模视觉-语言-动作(VLA)模型。主要贡献如下:(1)一个在大量人类和机器人操作视频上彻底训练的潜在动作模型;(2)一个双层动作表示框架,在训练期间共同监督视觉-语言模型(VLM)和动作专家;(3)一种混合训练策略,将机器人轨迹数据与通用QA和空间QA数据集相结合,有效增强了VLM骨干网络的3D感知和推理能力。具体来说,VLM被训练来预测两种互补形式的动作:从我们预训练在跨具身操作数据上的潜在动作模型中获得的潜在动作,它捕捉隐式高层意图;以及通过对连续控制信号进行频域变换获得的结构化离散动作token,它编码显式低层动态。这种双重监督对齐了语言、视觉和动作的表示空间,使VLM能够直接促进动作生成。LIBERO Franka基准上的实验结果证明了我们框架的优越性,而真实世界评估进一步表明iFlyBot-VLA在各种具有挑战性的操作任务中实现了具有竞争力的成功率。此外,我们计划开源一部分我们自建的数据集,以支持社区未来的研究。