EmbodiedOneVision:用于通用机器人控制的交错视觉-文本-动作预训练

发表
Delin QuDelin Qu 提交
作者: Delin QuDelin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui RenGuanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang

摘要

人类在开放世界中无缝执行多模态推理和物理交互的能力,是通用具身智能系统的核心目标。近期,在海量机器人和视觉-文本数据上共同训练的视觉-语言-动作(VLA)模型,在通用机器人控制方面取得了显著进展。然而,它们在交错推理和交互方面的灵活性仍未能达到人类水平。在本工作中,我们介绍了 EO-Robotics,它由 EO-1 模型和 EO-Data1.5M 数据集组成。EO-1 是一个统一的具身基础模型,通过交错的视觉-文本-动作预训练,在多模态具身推理和机器人控制方面实现了卓越的性能。EO-1 的开发基于两大关键支柱:(i)一个能够无差别处理多模态输入(图像、文本、视频和动作)的统一架构,以及(ii)一个海量、高质量的多模态具身推理数据集 EO-Data1.5M,该数据集包含超过 150 万个样本,侧重于交错的视觉-文本-动作理解。EO-1 通过自回归解码和在 EO-Data1.5M 上的流匹配去噪之间的协同作用进行训练,从而实现无缝的机器人动作生成和多模态具身推理。广泛的实验通过一系列长时域、灵巧操作任务,跨越多种具身设备,证明了交错视觉-文本-动作学习对于开放世界理解和泛化的有效性。本文详细介绍了 EO-1 的架构、EO-Data1.5M 的数据构建策略以及训练方法,为开发先进的具身基础模型提供了宝贵的见解。
查看 arXiv 页面查看 PDF

评论

Delin QuDelin Qu
论文作者
论文提交者
EO:开源统一具身基础模型系列

我们推出 EO-1 模型,这是一个开源的统一具身基础模型,拥有 3B 参数,在精心策划的交错具身数据集 EO-Data1.5M、Web 多模态数据和机器人控制数据(AgiBotWorld、Open X-Embodiment、RoboMIND、SO100-Community 等)上进行训练。EO-1 模型采用单一的统一解码器 transformer,集成了离散的自回归解码和连续流匹配去噪,用于多模态具身推理和机器人控制,从而在单一模型中实现无缝感知、规划、推理和行动。这项工作突出了以下特点:

  • 统一架构:单一的解码器 transformer 集成了文本、图像、视频和动作。

  • 📚 EO-1.5M 数据集:150 万个高质量的交错样本(物理、推理、空间、控制)。

  • 🌀 交错预训练:通过自回归 + 流匹配实现语言和动作之间的无缝协同。

  • 🤖 增强推理的泛化能力:通过多模态具身推理和真实机器人控制实现卓越的泛化能力。

链接