⏶32
视觉具身大脑:让多模态大语言模型在空间中看、思考和控制
发表
由
Ganlin Yang 提交
作者: Gen Luo,
Ganlin Yang,
Ziyang Gong, Guanzhou Chen,
Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou,
Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu


摘要
多模态大型语言模型(MLLM)的显著进步引起了人们日益增长的兴趣,希望将其扩展到腿式机器人等物理实体。这通常要求 MLLM 不仅要掌握多模态理解能力,还要整合视觉空间推理和物理交互能力。然而,现有方法由于其根本性差异,难以统一这些能力。在本文中,我们提出了视觉具身大脑(VeBrain),一个用于真实世界中感知、推理和控制的统一框架。VeBrain 将机器人控制重新表述为 2D 视觉空间中常见的基于文本的 MLLM 任务,从而统一了不同任务的目标和映射空间。然后,提出了一种新颖的机器人适配器,用于将 MLLM 的文本控制信号转换为真实机器人的运动策略。从数据角度来看,我们进一步引入了 VeBrain-600k,一个高质量的指令数据集,涵盖了 VeBrain 的各种能力。在 VeBrain-600k 中,我们花费了数百小时来收集、整理和标注数据,并采用多模态思维链(CoT)将不同的能力混合到一次对话中。在 13 个多模态基准和 5 个空间智能基准上进行的广泛实验表明,VeBrain 比现有 MLLM(如 Qwen2.5-VL)具有更优越的性能。当部署到腿式机器人和机械臂上时,与现有方法相比,VeBrain 表现出强大的适应性、灵活性和组合能力。例如,与 Qwen2.5-VL 相比,VeBrain 不仅在 MMVet 上取得了 +5.6% 的显著增益,而且在腿式机器人任务中平均增益达到 +50%。
大家好,请查看我们最新的工作Visual Embodied Brain (VeBrain),这是第一个统一多模态理解、空间智能和机器人控制的框架。