X-Sim: 跨具身学习 通过 现实到仿真再到现实

发表
Prithwish DanPrithwish Dan 提交
作者: Prithwish DanPrithwish Dan, Kushal KediaKushal Kedia, Angela ChaoAngela Chao, Edward Weiyi Duan, Maximus Adrian Pace, Wei-Chiu MaWei-Chiu Ma, Sanjiban Choudhury

摘要

人类视频提供了一种可扩展的方式来训练机器人操作策略,但缺少标准模仿学习算法所需的动作标签。现有的跨身体结构方法试图将人类动作映射到机器人动作,但在身体结构差异显著时往往会失败。我们提出了 X-Sim,这是一个从现实到模拟再到现实的框架,它使用物体运动作为一种密集且可迁移的信号来学习机器人策略。X-Sim 首先从一个 RGBD 人类视频重建一个照片级真实的模拟环境,并跟踪物体轨迹,以定义以物体为中心的奖励。这些奖励被用来在模拟环境中训练一个强化学习 (RL) 策略。学习到的策略随后被蒸馏成一个图像条件扩散策略,利用通过不同视角和光照渲染生成的合成模拟轨迹。为了迁移到现实世界,X-Sim 引入了一种在线领域适应技术,用于在部署过程中对齐现实和模拟观测。重要的是,X-Sim 不需要任何机器人遥操作数据。我们在 2 个环境中、跨 5 个操作任务对其进行了评估,并表明它:(1) 相较于手部跟踪和模拟到现实的基线方法,平均将任务进展提高了 30%;(2) 在数据收集时间减少 10 倍的情况下,媲美行为克隆;以及 (3) 泛化到新的相机视角和测试时变化。代码和视频可在 https://portal-cornell.github.io/X-Sim/ 获取。
查看 arXiv 页面查看 PDF

评论

Prithwish DanPrithwish Dan
论文作者
论文提交者

人类视频为训练机器人操作策略提供了一种可扩展的方式,但缺乏标准模仿学习算法所需的动作标签。现有的跨肢体方法尝试将人类动作映射到机器人动作,但当肢体差异显著时往往失败。我们提出了 X-Sim,这是一个现实-仿真-现实框架,它使用物体运动作为密集且可迁移的信号来学习机器人策略。X-Sim 首先从 RGBD 人类视频中重建一个逼真的仿真环境,并跟踪物体轨迹来定义以物体为中心的奖励。这些奖励被用于在仿真中训练一个强化学习 (RL) 策略。然后将学到的策略蒸馏到一个图像条件扩散策略中,使用通过不同视角和光照渲染的合成轨迹。为了迁移到现实世界,X-Sim 引入了一种在线域适应技术,在部署时对齐现实和仿真观察。重要的是,X-Sim 不需要任何机器人远程操作数据。我们在 2 个环境中的 5 个操作任务上评估了它,并表明它:(1) 相比手部跟踪和仿真到现实的基线方法,平均将任务进展提高了 30%,(2) 数据收集时间减少了 10 倍,却能达到与行为克隆相当的效果,(3) 泛化到新的相机视角和测试时变化。代码和视频可在 https://portal-cornell.github.io/X-Sim/ 获取。