⏶13
VLA^2:通过代理框架赋能视觉-语言-动作模型进行未见概念操控
发表
由
Han Zhao 提交

作者:
Han Zhao, Jiaxuan Zhang, Wenxuan Song, Pengxiang Ding, Donglin Wang

摘要
AI 生成总结
一种新颖的代理框架 VLA^2,通过集成 Web 检索和对象检测等外部模块来增强视觉语言动作模型,提高了对未见对象和描述的泛化能力。当前在大型机器人数据上预训练的视觉-语言-动作(VLA)模型,在多任务能力方面表现出色,并且在操作任务的视觉和语言指令变体上具有良好的泛化能力。然而,当面对训练数据之外的目标概念,例如数据集中未见过的目标描述和纹理时,它们的成功率会显著下降。为了解决这个问题,我们提出了一个新颖的智能体框架 VLA^2,它利用 OpenVLA 作为执行骨干,并有效地利用 Web 检索和目标检测等外部模块,为 VLA 提供目标对象的可视和文本知识。这种方法在处理分布外对象时减轻了泛化失败。基于 LIBERO 仿真环境,我们引入了新颖的对象和对象描述,构建了一个包含三个难度级别的评估基准,以测试我们方法的有效性。我们的框架在我们设计的硬级别泛化基准上成功地优于当前最先进的模型。与独立的 OpenVLA 基线相比,VLA^2 在硬级别基准上的成功率提高了 44.2%,在所有自定义环境中平均提高了 20.2%,而没有对领域内任务造成任何性能下降。项目网站:https://vla-2.github.io。
项目网站:vla-2.github.io