⏶16
Embodied-R1:用于通用机器人操作的强化具身推理
发表
由
Yifu Yuan 提交

作者:
Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao

摘要
实体化人工智能(AI)中的泛化能力受“从看到做到”的鸿沟的阻碍,该鸿沟源于数据稀缺性和实体异质性。为解决此问题,我们开创了“指向”作为一种统一的、与实体无关的中间表示,定义了四个核心的实体指向能力,以连接高级的视觉语言理解和低级动作原语。我们推出了 Embodied-R1,一个 3B 视觉语言模型 (VLM),专门为实体推理和指向而设计。我们使用广泛的实体和通用视觉推理数据集作为来源,构建了一个大规模数据集 Embodied-Points-200K,该数据集支持关键的实体指向能力。然后,我们使用一个两阶段的强化微调 (RFT) 课程和专门的多任务奖励设计来训练 Embodied-R1。Embodied-R1 在 11 个实体空间和指向基准测试中取得了最先进的性能。关键的是,它通过在 SIMPLEREnv 中达到 56.2% 的成功率,以及在 8 个真实世界的 XArm 任务中达到 87.5% 的成功率,展示了强大的零样本泛化能力,且无需任何特定任务的微调,这比强大的基线提高了 62%。此外,该模型在面对各种视觉干扰时表现出高鲁棒性。我们的工作表明,以指向为中心的表示与 RFT 训练范式相结合,为弥合机器人感知-行动差距提供了一条有效且可泛化的途径。
Embodied-R1 是一个 3B 的视觉语言模型 (VLM),专为通用机器人操作而设计。通过创新的“指向”机制和强化微调 (RFT) 训练方法,它有效地弥合了机器人学中“视觉到行动”的鸿沟,实现了卓越的零样本泛化能力。