⏶20
Being-H0:来自大规模人类视频的视觉-语言-动作预训练
发表
由
Wanpeng Zhang 提交

作者: Hao Luo, Yicheng Feng,
Wanpeng Zhang, Sipeng Zheng, Ye Wang,
Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu

摘要
我们引入了 Being-H0,这是一个灵巧的视觉-语言-动作模型 (VLA),在大规模人类视频上训练而成。现有的 VLA 在需要高度灵巧性的复杂操作任务中表现不佳,并且在新的场景和任务中泛化能力差,这主要是因为它们依赖于具有显著模拟到现实差距的合成数据,或缺乏规模和多样性的远程操作演示。为了解决这个数据瓶颈,我们提出利用人类手作为基础操作器,利用网络数据中丰富的灵巧性和可扩展性。我们的方法以物理指令微调为中心,这是一种新颖的训练范式,它结合了从人类视频中进行大规模 VLA 预训练、用于 3D 推理的物理空间对齐以及用于机器人任务的后期训练适应。此外,我们引入了一种部件级运动标记化方法,该方法实现了毫米级重建精度,以建模精确的手部轨迹用于动作学习。为了支持我们提出的范式,我们进一步开发了一个全面的数据整理管道,将异构来源(包括动作捕捉、VR 和纯 RGB 视频)整合到一个包含数百万基于运动的教学实例的大规模数据集中。我们通过实验证明了 Being-H0 在手部运动生成和指令遵循方面的卓越表现,并且它在模型和数据规模上也能很好地扩展。重要的是,我们观察到在应用物理指令微调后,Being-H0 在实际机器人操作中获得了预期的收益。更多详情请访问 <a href="https://beingbeyond.github.io/Being-H0">https://beingbeyond.github.io/Being-H0</a>。
我们推出了 Being-H0,这是第一个灵巧的视觉-语言-动作模型,通过显式手部运动建模,利用大规模人类视频进行预训练。