EgoZero:从智能眼镜中学习的机器人

发表
vincent liuvincent liu 提交
作者: vincent liuVincent Liu, Ademi Adeniji, Haotian Zhan, Raunaq Bhirangi, Pieter Abbeel, Lerrel Pinto

摘要

尽管通用机器人取得了最新进展,但机器人策略在现实世界中仍远落后于人类的基本能力。人类不断与物理世界互动,然而这种丰富的数据资源在机器人学习中仍未得到充分利用。我们提出了 EgoZero,这是一个极简系统,它利用通过 Project Aria 智能眼镜捕捉到的人类演示来学习鲁棒的操控策略,且无需任何机器人数据。EgoZero 能够实现:(1) 从真实场景下的自我中心视角人类演示中提取完整、可由机器人执行的动作,(2) 将人类视觉观测压缩为形态无关的状态表示,以及 (3) 具有形态、空间和语义泛化能力的闭环策略学习。我们将 EgoZero 策略部署在带有夹具的 Franka Panda 机器人上,并在 7 项操控任务上演示了零样本迁移,成功率达到 70%,每项任务仅需 20 分钟数据收集。我们的结果表明,真实场景下的人类数据可以作为现实世界机器人学习的可扩展基础——为未来实现丰富、多样化和自然化的机器人训练数据铺平了道路。代码和视频可在 https://egozero-robot.github.io 获取。
查看 arXiv 页面查看 PDF

评论

vincent liuvincent liu
论文作者
论文提交者

EgoZero:从智能眼镜中学习的机器人

尽管通用机器人在最近取得了进展,但机器人策略在现实世界中的基本人类能力方面仍然远远落后。人类不断地与物理世界互动,然而在机器人学习中,这一丰富的数据资源仍未得到充分利用。我们提出了 EgoZero,一个最小化的系统,它能够从通过 Project Aria 智能眼镜捕捉的人类演示中学习鲁棒的抓取操作策略,且无需任何机器人数据。EgoZero 实现了:(1) 从自然环境中、以自我为中心的人类演示中提取完整、可由机器人执行的动作,(2) 将人类视觉观察压缩成与形态无关的状态表示,以及 (3) 闭环策略学习,该策略在形态、空间和语义上都具有泛化能力。我们将 EgoZero 策略部署在带有抓手的 Franka Panda 机器人上,并在 7 个抓取操作任务上展示了零样本迁移,成功率达到 70%,每个任务仅需要 20 分钟的数据收集时间。我们的结果表明,自然环境中的人类数据可以作为现实世界机器人学习的可扩展基础——为未来机器人提供丰富、多样化和自然的数据铺平道路。代码和视频可在以下链接获取:https://egozero-robot.github.io。