Vlaser:具有协同具身推理的视觉-语言-动作模型

发表
Ganlin YangGanlin Yang 提交
作者: Ganlin YangGanlin Yang, Tianyi ZhangTianyi Zhang, Haoran HaoHaoran Hao, Weiyun Wang, Yibin Liu, Dehui Wang, Guanzhou ChenGuanzhou Chen, Zijian Cai, Junting Chen, Weijie Su, Wengang Zhou, Yu Qiao, Jifeng Dai, Jiangmiao Pang, Gen Luo, Wenhai Wang, Yao Mu, Zhi Hou

摘要

AI 生成总结
Vlaser 是一款视觉-语言-动作模型,将高级推理与低级控制集成到具身智能体中,在具身推理任务中取得了最先进的性能,并在机器人基准测试中取得了有竞争力的结果。
尽管已有大量研究集中于利用视觉语言模型(VLM)开发具身推理能力,或将先进的VLM集成到视觉语言动作(VLA)模型中进行端到端机器人控制,但很少有研究直接解决上游VLM推理与下游VLA策略学习之间的关键差距。在这项工作中,我们迈出了将具身推理与VLA策略学习联系起来的第一步,引入了Vlaser——一种具有协同具身推理能力的视觉语言动作模型,它是一个基础的视觉语言模型,旨在将高级推理与具身智能体的低级控制相结合。基于高质量的Vlaser-6M数据集,Vlaser在各种具身推理基准(包括空间推理、具身基础、具身QA和任务规划)上取得了最先进的性能。此外,我们系统地研究了不同的VLM初始化如何影响监督VLA微调,为减轻互联网规模预训练数据与具身特定策略学习数据之间的域偏移提供了新的见解。基于这些见解,我们的方法在WidowX基准上取得了最先进的结果,并在Google Robot基准上取得了有竞争力的性能。
查看 arXiv 页面查看 PDF

评论

Ganlin YangGanlin Yang
论文作者
论文提交者

大家好,请看我们的最新论文:Vlaser:具有协同具身推理的视觉-语言-动作模型,该模型在具身推理能力方面取得了顶级成果,并讨论了从 VLM 到 VLA 的迁移学习。