⏶37
Robix:机器人交互、推理和规划的统一模型
发表
由
Wei Li 提交
作者: Huang Fang,
Mengxi Zhang,
Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li
摘要
我们推出 Robix,这是一个统一的模型,将机器人推理、任务规划和自然语言交互整合到单一的视觉-语言架构中。Robix 作为分层机器人系统中的高级认知层,动态地为底层控制器生成原子命令,并为人类交互生成语言响应,使机器人能够在端到端框架内遵循复杂指令、规划长远任务以及与人类自然交互。Robix 进一步引入了主动对话、实时中断处理以及任务执行过程中的上下文感知常识推理等新功能。核心上,Robix 利用链式思维推理,并采用三阶段训练策略:(1) 持续预训练以增强基础的具身推理能力,包括 3D 空间理解、视觉基础和以任务为中心的推理;(2) 监督微调,将人机交互和任务规划建模为统一的推理-动作序列;以及 (3) 强化学习,以提高推理-动作一致性和长远任务连贯性。大量实验表明,Robix 在交互式任务执行方面优于开源和商业基线(例如 GPT-4o 和 Gemini 2.5 Pro),在各种指令类型(例如开放式、多阶段、受限、无效和中断)以及各种用户参与的任务(例如餐桌整理、杂货购物和饮食过滤)方面展现出强大的泛化能力。
视频演示: https://www.youtube.com/embed/-uEDN31Ne_Y
Robix的主要特点总结如下:
🌟 统一模型。Robix是一个单一的视觉-语言模型,统一了机器人推理、任务规划和人机交互,使机器人能够端到端地遵循复杂指令,规划长周期任务,并在自然环境中进行交互。
🌟 灵活交互。在这个统一的框架内,Robix支持主动对话以澄清模糊性并推断用户意图,实时中断处理以无缝整合反馈,以及面向复杂、开放式任务的上下文感知常识推理。
🌟 稳健性能。我们在两种设置下评估了Robix:(i)在一个精心策划的交互任务基准上,该基准涵盖了各种指令类型的分布内和分布外场景;(ii)在一个分层机器人系统中,通过人类遥操作和自动VLA模型作为低级控制器,跨越五个真实世界场景。这些评估表明,Robix在所有设置下始终表现出强大的性能。