Robix:机器人交互、推理和规划的统一模型

发表
Wei LiWei Li 提交
作者: Huang Fang, mengxizhangMengxi Zhang, Heng DongHeng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

摘要

我们推出 Robix,这是一个统一的模型,将机器人推理、任务规划和自然语言交互整合到单一的视觉-语言架构中。Robix 作为分层机器人系统中的高级认知层,动态地为底层控制器生成原子命令,并为人类交互生成语言响应,使机器人能够在端到端框架内遵循复杂指令、规划长远任务以及与人类自然交互。Robix 进一步引入了主动对话、实时中断处理以及任务执行过程中的上下文感知常识推理等新功能。核心上,Robix 利用链式思维推理,并采用三阶段训练策略:(1) 持续预训练以增强基础的具身推理能力,包括 3D 空间理解、视觉基础和以任务为中心的推理;(2) 监督微调,将人机交互和任务规划建模为统一的推理-动作序列;以及 (3) 强化学习,以提高推理-动作一致性和长远任务连贯性。大量实验表明,Robix 在交互式任务执行方面优于开源和商业基线(例如 GPT-4o 和 Gemini 2.5 Pro),在各种指令类型(例如开放式、多阶段、受限、无效和中断)以及各种用户参与的任务(例如餐桌整理、杂货购物和饮食过滤)方面展现出强大的泛化能力。
查看 arXiv 页面查看 PDF

评论

Wei LiWei Li
论文提交者

视频演示https://www.youtube.com/embed/-uEDN31Ne_Y

Robix的主要特点总结如下:

🌟 统一模型。Robix是一个单一的视觉-语言模型,统一了机器人推理、任务规划和人机交互,使机器人能够端到端地遵循复杂指令,规划长周期任务,并在自然环境中进行交互。

🌟 灵活交互。在这个统一的框架内,Robix支持主动对话以澄清模糊性并推断用户意图,实时中断处理以无缝整合反馈,以及面向复杂、开放式任务的上下文感知常识推理。

🌟 稳健性能。我们在两种设置下评估了Robix:(i)在一个精心策划的交互任务基准上,该基准涵盖了各种指令类型的分布内和分布外场景;(ii)在一个分层机器人系统中,通过人类遥操作和自动VLA模型作为低级控制器,跨越五个真实世界场景。这些评估表明,Robix在所有设置下始终表现出强大的性能。

model-architecture

Pranav PawarPranav Pawar

这是一个 VLA 还是 VLM?

另外,为什么它要与 4o & 2.5 Pro 进行比较,而不是与机器人特定的模型进行比较!?

Wei LiWei Li
论文提交者

Robix 是一个视觉-语言模型 (VLM),旨在实现统一的机器人任务规划和自然人机交互。在我们的实验中,我们将其与 Cosmos-Reason1 和 RoboBrain-2.0 等最新的具身模型进行了比较。由于我们的重点是建模复杂的交互过程,目前没有其他开源模型可以作为合适的基线。然而,从我们的结果来看,Gemini-2.5-Pro 和 GPT-4o 等大型商业模型在捕捉复杂的多模态交互方面表现出更强的性能,使其成为更具竞争力的参考。

Joe JIANGJoe JIANG

为什么不将 Claude 4 Opus 和 GPT-5 等其他最先进的模型与 Gemini 2.5 Pro 一起进行比较?

Wei LiWei Li
论文提交者

好建议!我们将在后续的实验中纳入相应的评估。

我们研究中的基线模型是从当时可用的代表性多模态模型中选取的,并且大多数实验是在 GPT-5 发布之前进行的,因此比较主要是针对 GPT-4o。

根据我们的结果,Gemini-2.5-Pro 目前是表现最强的通用多模态模型(尤其是在具身领域),这也与 Seed-1.5-VL 评估报告的发现一致。