⏶27
GR-3 技术报告
发表
由
sijin 提交

作者: Chilam Cheang,
Sijin Chen, Zhongren Cui,
Yingdong Hu,
Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu,
Wenxuan Ou,
Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu,
Xin Xiao,
Yuyang Xiao,
Jiafeng Xu, Yichu Yang




摘要
我们报告了在构建通用机器人策略方面的最新进展,即GR-3的开发。GR-3是一个大规模的视觉-语言-动作(VLA)模型。它在泛化到新颖物体、环境和涉及抽象概念的指令方面展现出卓越的能力。此外,它可以通过最少的人类轨迹数据进行高效微调,从而实现对新环境的快速且经济高效的适应。GR-3在处理长程和灵巧任务方面也表现出色,包括那些需要双手操作和移动的任务,展现出稳健可靠的性能。这些能力是通过多方面的训练方案实现的,其中包括与网络规模的视觉-语言数据共同训练、通过VR设备收集的人类轨迹数据进行高效微调,以及利用机器人轨迹数据进行有效的模仿学习。此外,我们推出了ByteMini,这是一种多功能双臂移动机器人,设计时具有出色的灵活性和可靠性,与GR-3集成后能够完成各种任务。通过广泛的实际世界实验,我们表明GR-3在各种具有挑战性的任务上超越了最先进的基线方法pi_0。我们希望GR-3能够成为构建能够协助人类日常生活的通用机器人的一个里程碑。
项目页面: https://seed.bytedance.com/GR3