GigaBrain-0:一个由世界模型驱动的视觉-语言-动作模型

发表
JeffWangJeffWang 提交
作者: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, lijieJie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, JeffWangXiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu

摘要

AI 生成总结
GigaBrain-0 是一种 VLA 基础模型,利用世界模型生成的数据来增强跨任务泛化和策略鲁棒性,从而改善复杂操作任务的实际性能。
训练用于通用机器人的视觉-语言-动作(VLA)模型通常需要大规模的真实世界机器人数据, 这既昂贵又耗时。物理数据收集效率低下严重限制了当前 VLA 系统的可扩展性和泛化能力。 为了解决这个挑战,我们引入了 GigaBrain-0,一个由世界模型生成数据(例如,视频生成、 真实到真实转换、人类转换、视角转换、模拟到真实转换数据)赋能的新型 VLA 基础模型。通过利用世界模型大规模生成多样化数据,GigaBrain-0 显著减少了对真实机器人数据的依赖,同时提高了跨任务泛化能力。我们的方法通过 RGBD 输入建模和具身思维链(CoT)监督进一步提高了策略鲁棒性,使模型能够在任务执行过程中 推理空间几何、物体状态和长程依赖关系。这在灵巧、长程和移动操作任务的真实世界性能上 带来了显著提升。大量实验表明,GigaBrain-0 在外观(例如纹理、颜色)、物体放置和摄像机视角的各种变化中实现了卓越的泛化能力。 此外,我们还推出了 GigaBrain-0-Small,这是一个优化的轻量级变体,旨在 NVIDIA Jetson AGX Orin 等设备上高效运行。
查看 arXiv 页面查看 PDF

评论

JeffWangJeffWang
论文作者
论文提交者
此评论已隐藏。
YuKun ZhouYuKun Zhou

干得好

lipenglipeng

太棒了