⏶8
TWIST2:可扩展、便携且全面的人形机器人数据收集系统
发表
由
taesiri 提交
作者:
Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
摘要
AI 生成总结
TWIST2 是一款便携式无 mocap 系统,可为人形机器人实现高效的数据收集和分层视觉运动策略控制。大规模数据推动了机器人技术领域的发展,从语言模型到双臂操作中的视觉-语言-动作模型。然而,人形机器人缺乏同样有效的数据收集框架。现有的人形机器人遥操作系统要么采用解耦控制,要么依赖昂贵的运动捕捉设置。我们引入了 TWIST2,这是一种便携式、无需运动捕捉的人形机器人遥操作和数据收集系统,它在保持全身控制的同时,提高了可扩展性。我们的系统利用 PICO4U VR 获取实时全身人体运动,并配备定制的 2 自由度机器人颈部(成本约 250 美元)用于自我中心视觉,从而实现整体的人-人形机器人控制。我们展示了长程灵巧和移动的人形机器人技能,并且我们可以在 15 分钟内收集 100 个演示,成功率接近 100%。在此基础上,我们提出了一个分层视觉运动策略框架,该框架基于自我中心视觉自主控制整个机器人身体。我们的视觉运动策略成功地展示了全身灵巧操作和动态踢球任务。整个系统完全可复现并开源于 https://yanjieze.com/TWIST2。我们收集的数据集也已开源于 https://twist-data.github.io。
大规模数据推动了机器人技术突破,从语言模型到双臂操作中的视觉-语言-动作模型。然而,类人机器人缺乏同样有效的数据收集框架。现有的类人机器人遥操作系统要么采用解耦控制,要么依赖昂贵的运动捕捉设置。我们引入了TWIST2,一个便携式、无需运动捕捉的类人机器人遥操作和数据收集系统,它在保持完整的全身控制的同时,提高了可扩展性。我们的系统利用PICO4U VR获取实时的全身人体运动,并配备一个定制的2自由度机器人颈部(成本约250美元)用于第一人称视角,从而实现整体的人机协作控制。我们展示了长时程的灵巧和移动类人机器人技能,并且我们可以在15分钟内收集100个演示,成功率几乎达到100%。在此基础上,我们提出了一个分层视觉运动策略框架,该框架基于第一人称视角自主控制完整的类人机器人身体。我们的视觉运动策略成功地展示了全身灵巧操作和动态踢球任务。