⏶35
RoboRefer:迈向机器人视觉语言模型中具有推理的空间指代
发表
由
Zhoues 提交
作者:
Enshen Zhou,
Jingkun An, Cheng Chi, Yi Han, Shanyu Rong, Chi Zhang, Pengwei Wang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, Shanghang Zhang

摘要
空间指代是具身机器人与 3D 物理世界交互的基本能力。然而,即使拥有强大的预训练视觉语言模型 (VLM),现有方法仍不足以准确理解复杂的 3D 场景并动态推断指令指示的交互位置。为此,我们提出了 RoboRefer,一个 3D 感知的 VLM,它通过监督微调 (SFT) 集成了一个解耦但专用的深度编码器,首先实现了精确的空间理解。此外,RoboRefer 通过强化微调 (RFT) 推进了广义多步空间推理,并为空间指代任务量身定制了度量敏感的过程奖励函数。为了支持 SFT 和 RFT 训练,我们引入了 RefSpatial,一个包含 20M 问答对(比现有数据集多 2 倍)的大规模数据集,涵盖 31 种空间关系(比现有数据集多 15 种)并支持复杂的推理过程(最多 5 步)。此外,我们引入了 RefSpatial-Bench,一个具有挑战性的基准,填补了多步推理空间指代评估的空白。实验表明,经过 SFT 训练的 RoboRefer 实现了最先进的空间理解,平均成功率为 89.6%。经过 RFT 训练的 RoboRefer 进一步大幅优于所有其他基线,甚至在 RefSpatial-Bench 上的平均准确率超过 Gemini-2.5-Pro 17.4%。值得注意的是,RoboRefer 可以与各种控制策略集成,以在杂乱的真实世界场景中跨不同机器人(例如,UR5、G1 人形机器人)执行长周期、动态任务。
项目页面:https://zhoues.github.io/RoboRefer/
我们提出了 RoboRefer,这是第一个具有显式推理功能的 3D 感知 VLM,用于多步空间指代。
亮点:
RoboRefer 首先通过 SFT 获得精确的空间理解,并通过 RFT 进一步展现泛化的强推理能力。
为了支持 SFT 和 RFT 训练,我们引入了 RefSpatial,这是一个包含 20M 问答对的大规模数据集(是现有数据集的 2 倍),涵盖 31 种空间关系(现有数据集为 15 种),并包含复杂的推理过程(最多 5 步)。
经过 SFT 训练的 RoboRefer 实现了最先进的空间理解,而经过 RFT 训练的 RoboRefer 在新颖的空间关系组合下展现出可泛化的空间指代能力。