⏶40
MolmoAct:能够进行空间推理的动作推理模型
发表
由
Duan 提交
作者:
Jason Lee, Jiafei Duan,
Haoquan Fang, Yuquan Deng, Shuo Liu, Boyang Li, Bohan Fang, Jieyu Zhang, Yi Ru Wang, Sangho Lee, Winson Han, Wilbert Pumacay, Angelica Wu, Rose Hendrix, Karen Farley, Eli VanderBilt, Ali Farhadi, Dieter Fox, Ranjay Krishna

摘要
推理是目标导向行动的核心,然而大多数机器人基础模型直接将感知和指令映射到控制,这限制了适应性、泛化性和语义基础。我们引入了行动推理模型(ARMs),一类视觉-语言-行动模型,通过结构化的三阶段流程整合感知、规划和控制。我们的模型MolmoAct将观察和指令编码为深度感知令牌,生成中级空间规划作为可编辑的轨迹轨迹,并预测精确的低级行动,从而实现可解释和可操纵的行为。MolmoAct-7B-D在模拟和真实世界环境中都表现出色:在SimplerEnv视觉匹配任务中实现了70.5%的零样本准确率,超越了闭源的Pi-0和GR00T N1;在LIBERO上平均成功率达86.6%,其中在长程任务上比ThinkAct额外提高了6.3%;在真实世界微调中,比Pi-0-FAST在(单臂)任务进展上额外提高了10%,在(双臂)任务进展上额外提高了22.7%。它还在分布外泛化方面比基线额外提高了23.3%,并在开放式指令遵循和轨迹操纵方面取得了最高的人类偏好得分。此外,我们首次发布了MolmoAct数据集——一个中训练机器人数据集,包含超过10,000条高质量机器人轨迹,涵盖多种场景和任务。使用该数据集进行训练,模型的总体性能平均提高了5.5%。我们发布了所有模型权重、训练代码、我们收集的数据集和我们的行动推理数据集,将MolmoAct确立为最先进的机器人基础模型,以及通过结构化推理将感知转化为目标导向行动的开放蓝图。博客文章:https://allenai.org/blog/molmoact

-