NORA:一个用于具身任务的小型开源通用型视觉-语言-动作模型

发表
Soujanya PoriaSoujanya Poria 提交
作者: Hung Chia YuChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria

摘要

现有的视觉-语言-动作 (VLA) 模型在零样本场景中表现出了良好的性能,展示了令人印象深刻的任务执行和推理能力。然而,视觉编码的局限性带来了一个重大挑战,可能导致在物体抓取等任务中失败。此外,这些模型通常由于其庞大的规模而面临高计算开销,参数量常常超过70亿。尽管这些模型在推理和任务规划方面表现出色,但它们产生的巨大计算开销使其在速度和效率至关重要的实时机器人环境中变得不切实际。为了解决现有VLA模型的局限性,我们提出了NORA,这是一个参数量为30亿的模型,旨在降低计算开销,同时保持强大的任务性能。NORA采用Qwen-2.5-VL-3B多模态模型作为其骨干,利用其卓越的视觉-语义理解能力来增强视觉推理和动作落地。此外,我们的模型在97万真实世界机器人演示数据上进行了训练,并配备了FAST+分词器,用于高效生成动作序列。实验结果表明,NORA的表现优于现有的大型VLA模型,实现了更好的任务性能,同时计算开销显著降低,使其成为用于实时机器人自主操作的一个更实用的解决方案。
查看 arXiv 页面查看 PDF

评论

Soujanya PoriaSoujanya Poria
论文提交者

新的小 VLA