⏶20

Being-H0：来自大规模人类视频的视觉-语言-动作预训练

07月21日发表

07月22日由 Wanpeng Zhang 提交

作者: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu

摘要

我们引入了 Being-H0，这是一个灵巧的视觉-语言-动作模型 (VLA)，在大规模人类视频上训练而成。现有的 VLA 在需要高度灵巧性的复杂操作任务中表现不佳，并且在新的场景和任务中泛化能力差，这主要是因为它们依赖于具有显著模拟到现实差距的合成数据，或缺乏规模和多样性的远程操作演示。为了解决这个数据瓶颈，我们提出利用人类手作为基础操作器，利用网络数据中丰富的灵巧性和可扩展性。我们的方法以物理指令微调为中心，这是一种新颖的训练范式，它结合了从人类视频中进行大规模 VLA 预训练、用于 3D 推理的物理空间对齐以及用于机器人任务的后期训练适应。此外，我们引入了一种部件级运动标记化方法，该方法实现了毫米级重建精度，以建模精确的手部轨迹用于动作学习。为了支持我们提出的范式，我们进一步开发了一个全面的数据整理管道，将异构来源（包括动作捕捉、VR 和纯 RGB 视频）整合到一个包含数百万基于运动的教学实例的大规模数据集中。我们通过实验证明了 Being-H0 在手部运动生成和指令遵循方面的卓越表现，并且它在模型和数据规模上也能很好地扩展。重要的是，我们观察到在应用物理指令微调后，Being-H0 在实际机器人操作中获得了预期的收益。更多详情请访问 <a href="https://beingbeyond.github.io/Being-H0">https://beingbeyond.github.io/Being-H0</a>。

查看 arXiv 页面查看 PDF

Wanpeng Zhang

论文作者

论文提交者

我们推出了 Being-H0，这是第一个灵巧的视觉-语言-动作模型，通过显式手部运动建模，利用大规模人类视频进行预训练。

Being-H0：来自大规模人类视频的视觉-语言-动作预训练

摘要

评论