空间强制:视觉-语言-动作模型的隐式空间表征对齐

发表
Wenxuan SongWenxuan Song 提交
作者: Fuhao Li, Wenxuan Song, Han ZhaoHan Zhao, Jingbo WangJingbo Wang, Pengxiang Ding, Donglin Wang, Long Zeng, Haoang Li

摘要

视觉-语言-动作 (VLA) 模型最近在使机器人能够遵循语言指令并执行精确动作方面展现出巨大潜力。 然而,大多数 VLA 模型都构建在仅在 2D 数据上预训练的视觉-语言模型之上,这些模型缺乏精确的空间感知能力,并阻碍了它们在 3D 物理世界中运行的能力。 现有解决方案试图整合显式的 3D 传感器输入,如深度图或点云,但这些方法由于传感器噪声、硬件异构性以及现有数据集中深度覆盖不完整而面临挑战。 从 2D 图像估计 3D 线索的替代方法也受到深度估计器性能有限的困扰。 我们提出了空间强制 (SF),这是一种简单而有效的对齐策略,它能隐式地促使 VLA 模型在不依赖显式 3D 输入或深度估计器的情况下,开发空间理解能力。 SF 将 VLA 的中间视觉嵌入与预训练的 3D 基础模型生成的几何表示对齐。 通过在中间层强制对齐,SF 指导 VLA 编码更丰富的空间表示,从而提高动作精度。 在模拟和真实世界环境中进行的广泛实验表明,SF 取得了最先进的成果,超越了基于 2D 和 3D 的 VLA 模型。 SF 还能将训练速度提高高达 3.8 倍,并在各种机器人任务中提高数据效率。 项目页面位于 https://spatial-forcing.github.io/
查看 arXiv 页面查看 PDF

评论