NavDP:学习具有特权信息引导的 Sim-to-Real 导航扩散策略

发表
Tai WangTai Wang 提交
作者: Wenzhe CaiWenzhe Cai, Jiaqi Peng, yuqiang yangYuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao PangJiangmiao Pang

摘要

在动态开放世界环境中学习导航对机器人来说是一项重要但具有挑战性的技能。大多数先前的方法依赖于精确的定位和建图,或者从昂贵的现实世界演示中学习。在本文中,我们提出了导航扩散策略(NavDP),这是一个完全在模拟中训练的端到端框架,并且可以在不同的现实世界环境中零样本迁移到不同的具身(embodiments)。NavDP网络的关键组成部分是基于扩散的轨迹生成与用于轨迹选择的评论函数(critic function)的结合,它们仅依赖于从共享策略Transformer编码的局部观察令牌作为条件。考虑到模拟中全局环境的特权信息,我们扩展了高质量的演示数据来训练扩散策略,并使用对比负样本来构建评论价值函数的目标。我们的演示生成方法实现了每天每GPU约2,500条轨迹,比现实世界数据收集效率高20倍,并生成了一个包含1244个场景、总长363.2公里的轨迹的大规模导航数据集。使用这个模拟数据集进行训练,NavDP在四足、轮式和人形机器人在各种室内外环境中的表现达到了最先进水平,并展现出持续出色的泛化能力。此外,我们初步尝试使用高斯溅射(Gaussian Splatting)进行域内(in-domain)的实到虚(real-to-sim)微调,以进一步弥合虚到实(sim-to-real)的差距。实验表明,添加此类实到虚数据可以将成功率提高30%,而不会损害其泛化能力。
查看 arXiv 页面查看 PDF

评论

Tai WangTai Wang
论文提交者

NavDP:学习带有特权信息引导的 Sim-to-Real 导航扩散策略