⏶13
X-VLA:软提示Transformer作为可扩展的跨具身视觉-语言-动作模型
发表
由
Jinliang Zheng 提交
作者:
Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
摘要
AI 生成总结
一种新颖的Soft Prompt方法通过使用可学习的嵌入来增强视觉-语言-动作模型,以处理多样化的机器人数据,从而在模拟和真实世界机器人上实现了卓越的性能。成功的通用视觉-语言-动作(VLA)模型依赖于在大型、跨具身、异构数据集上,在各种机器人平台上进行有效训练。为了促进和利用丰富、多样化机器人数据源中的异构性,我们提出了一种新颖的软提示方法,该方法仅添加最少的参数,将提示学习概念融入跨具身机器人学习,并为每个不同的数据源引入一组可学习的嵌入。这些嵌入充当具身特定提示,共同赋能VLA模型有效利用不同的跨具身特征。我们的新X-VLA,一种基于流匹配的整洁VLA架构,完全依赖于软提示的标准Transformer编码器,兼具可扩展性和简洁性。在6个仿真和3个真实机器人上进行的评估中,我们的0.9B实例X-VLA-0.9B在各种基准测试中同时实现了最先进的性能,在从灵活的灵巧性到跨具身、环境和任务的快速适应等广泛能力轴线上都取得了优异的结果。网站:https://thu-air-dream.github.io/X-VLA/
https://cdn-uploads.huggingface.co/production/uploads/64c0afc06b2f05ae642e1918/8A7u1qtcFSdG_RAxQ5Ano.qt