⏶37

Robix：机器人交互、推理和规划的统一模型

09月01日发表

09月04日由 Wei Li 提交

作者: Huang Fang, mengxizhang Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li

摘要

我们推出 Robix，这是一个统一的模型，将机器人推理、任务规划和自然语言交互整合到单一的视觉-语言架构中。Robix 作为分层机器人系统中的高级认知层，动态地为底层控制器生成原子命令，并为人类交互生成语言响应，使机器人能够在端到端框架内遵循复杂指令、规划长远任务以及与人类自然交互。Robix 进一步引入了主动对话、实时中断处理以及任务执行过程中的上下文感知常识推理等新功能。核心上，Robix 利用链式思维推理，并采用三阶段训练策略：(1) 持续预训练以增强基础的具身推理能力，包括 3D 空间理解、视觉基础和以任务为中心的推理；(2) 监督微调，将人机交互和任务规划建模为统一的推理-动作序列；以及 (3) 强化学习，以提高推理-动作一致性和长远任务连贯性。大量实验表明，Robix 在交互式任务执行方面优于开源和商业基线（例如 GPT-4o 和 Gemini 2.5 Pro），在各种指令类型（例如开放式、多阶段、受限、无效和中断）以及各种用户参与的任务（例如餐桌整理、杂货购物和饮食过滤）方面展现出强大的泛化能力。

查看 arXiv 页面查看 PDF

Wei Li

论文提交者

视频演示： https://www.youtube.com/embed/-uEDN31Ne_Y

Robix的主要特点总结如下：

🌟 统一模型。Robix是一个单一的视觉-语言模型，统一了机器人推理、任务规划和人机交互，使机器人能够端到端地遵循复杂指令，规划长周期任务，并在自然环境中进行交互。

🌟 灵活交互。在这个统一的框架内，Robix支持主动对话以澄清模糊性并推断用户意图，实时中断处理以无缝整合反馈，以及面向复杂、开放式任务的上下文感知常识推理。

🌟 稳健性能。我们在两种设置下评估了Robix：（i）在一个精心策划的交互任务基准上，该基准涵盖了各种指令类型的分布内和分布外场景；（ii）在一个分层机器人系统中，通过人类遥操作和自动VLA模型作为低级控制器，跨越五个真实世界场景。这些评估表明，Robix在所有设置下始终表现出强大的性能。

model-architecture

Pranav Pawar

这是一个 VLA 还是 VLM？

另外，为什么它要与 4o & 2.5 Pro 进行比较，而不是与机器人特定的模型进行比较！？

Wei Li

论文提交者

Robix 是一个视觉-语言模型 (VLM)，旨在实现统一的机器人任务规划和自然人机交互。在我们的实验中，我们将其与 Cosmos-Reason1 和 RoboBrain-2.0 等最新的具身模型进行了比较。由于我们的重点是建模复杂的交互过程，目前没有其他开源模型可以作为合适的基线。然而，从我们的结果来看，Gemini-2.5-Pro 和 GPT-4o 等大型商业模型在捕捉复杂的多模态交互方面表现出更强的性能，使其成为更具竞争力的参考。

Joe JIANG

为什么不将 Claude 4 Opus 和 GPT-5 等其他最先进的模型与 Gemini 2.5 Pro 一起进行比较？

Wei Li

论文提交者

好建议！我们将在后续的实验中纳入相应的评估。

我们研究中的基线模型是从当时可用的代表性多模态模型中选取的，并且大多数实验是在 GPT-5 发布之前进行的，因此比较主要是针对 GPT-4o。

根据我们的结果，Gemini-2.5-Pro 目前是表现最强的通用多模态模型（尤其是在具身领域），这也与 Seed-1.5-VL 评估报告的发现一致。

Robix：机器人交互、推理和规划的统一模型

摘要

评论