RoboBrain 2.0 技术报告

发表
Adina YakefuAdina Yakefu 提交
作者: BAAI RoboBrain Team, Mingyu CaoMingyu Cao, tanhuajie2001Huajie Tan, yuhengjiYuheng Ji, MinglanLinMinglan Lin, lizhiyuZhiyu Li, CaozhouZhou Cao, Pengwei Wang, ZhouesEnshen Zhou, Han.YiYi Han, Yingbo Tang, Xiangqi Xu, weiWei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng ChiCheng Chi, Mengdi ZhaoMengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, huaihai lyuHuaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, lyuMengsi Lyu, Zhuo Chen, Yulong AoYulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

摘要

我们推出了RoboBrain 2.0,这是我们最新一代的具身视觉-语言基础模型,旨在统一物理环境中复杂具身任务的感知、推理和规划。它有两个变体:一个轻量级的7B模型和一个全尺寸的32B模型,采用视觉编码器和语言模型组成的异构架构。尽管其体积紧凑,RoboBrain 2.0在广泛的具身推理任务中表现出色。在空间和时间基准上,32B变体取得了领先成果,超越了先前的开源和专有模型。特别是,它支持关键的现实世界具身AI能力,包括空间理解(例如,功能预测、空间指代、轨迹预测)和时间决策(例如,闭环交互、多智能体长周期规划和场景图更新)。本报告详细介绍了模型架构、数据构建、多阶段训练策略、基础设施和实际应用。我们希望RoboBrain 2.0能够推进具身AI研究,并作为构建通用具身智能体的实用一步。代码、检查点和基准可在https://superrobobrain.github.io获取。
查看 arXiv 页面查看 PDF

评论

Adina YakefuAdina Yakefu
论文提交者

RoboBrain2.0:开放式嵌入脑模型。