Being-H0:来自大规模人类视频的视觉-语言-动作预训练

发表
Wanpeng ZhangWanpeng Zhang 提交
作者: Hao Luo, Yicheng Feng, Wanpeng ZhangWanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi YuanHaoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu

摘要

我们引入了 Being-H0,这是一个灵巧的视觉-语言-动作模型 (VLA),在大规模人类视频上训练而成。现有的 VLA 在需要高度灵巧性的复杂操作任务中表现不佳,并且在新的场景和任务中泛化能力差,这主要是因为它们依赖于具有显著模拟到现实差距的合成数据,或缺乏规模和多样性的远程操作演示。为了解决这个数据瓶颈,我们提出利用人类手作为基础操作器,利用网络数据中丰富的灵巧性和可扩展性。我们的方法以物理指令微调为中心,这是一种新颖的训练范式,它结合了从人类视频中进行大规模 VLA 预训练、用于 3D 推理的物理空间对齐以及用于机器人任务的后期训练适应。此外,我们引入了一种部件级运动标记化方法,该方法实现了毫米级重建精度,以建模精确的手部轨迹用于动作学习。为了支持我们提出的范式,我们进一步开发了一个全面的数据整理管道,将异构来源(包括动作捕捉、VR 和纯 RGB 视频)整合到一个包含数百万基于运动的教学实例的大规模数据集中。我们通过实验证明了 Being-H0 在手部运动生成和指令遵循方面的卓越表现,并且它在模型和数据规模上也能很好地扩展。重要的是,我们观察到在应用物理指令微调后,Being-H0 在实际机器人操作中获得了预期的收益。更多详情请访问 <a href="https://beingbeyond.github.io/Being-H0&quot;&gt;https://beingbeyond.github.io/Being-H0&lt;/a&gt;
查看 arXiv 页面查看 PDF

评论

Wanpeng ZhangWanpeng Zhang
论文作者
论文提交者

我们推出了 Being-H0,这是第一个灵巧的视觉-语言-动作模型,通过显式手部运动建模,利用大规模人类视频进行预训练。