⏶4

操作如同模拟：赋能机器人精确的几何感知

09月02日发表

09月04日由 Minghuan Liu 提交

作者: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, YunFeng_Lin Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang

摘要

现代机器人操控主要依赖于二维彩色空间中的视觉观察来进行技能学习，但泛化能力较差。相比之下，生活在三维世界中的人类在与物体交互时，比依赖纹理更依赖物理属性，例如距离、大小和形状。由于此类三维几何信息可以从广泛使用的深度摄像头中获取，因此为机器人赋予类似感知能力似乎是可行的。我们的初步研究发现，使用深度摄像头进行操控具有挑战性，这主要是由于其精度有限且易受各种噪声影响。在这项工作中，我们提出了摄像头深度模型（CDMs），作为日常使用的深度摄像头的简单插件，它以 RGB 图像和原始深度信号作为输入，并输出去噪、精确的度量深度。为了实现这一目标，我们开发了一个神经数据引擎，通过模拟深度摄像头的噪声模式来生成高质量的配对数据。我们的结果表明，CDMs 在深度预测方面达到了近乎模拟级别的精度，有效地弥合了操控任务中模拟到现实的差距。值得注意的是，我们的实验首次证明，一个在原始模拟深度上训练的策略，无需添加噪声或进行现实世界微调，就可以在两个具有挑战性的长时域任务中，完美地泛化到真实世界机器人上，这些任务涉及铰接、反光和细长物体，性能几乎没有下降。我们希望我们的发现能激发未来在通用机器人策略中利用模拟数据和三维信息的研究。

查看 arXiv 页面查看 PDF

Minghuan Liu

论文作者

论文提交者

🚀 想要构建一个 3D 感知的抓取策略，却被嘈杂的深度感知所困扰？想在模拟环境中训练您的抓取策略，却厌倦了通过退化几何感知（例如添加噪声）来弥合模拟到现实的差距？现在，这些棘手的问题都将随着我们的摄像头深度模型（Camera Depth Models）的出现而消失！摄像头深度模型 (CDMs) 可以作为即插即用模块集成到真实机器人管线中，将嘈杂的深度信息转化为高质量的感知，实现无缝的模拟到现实的迁移，让真实机器人抓取表现如同在模拟环境中一样！

🎯 重要性：CDMs 提供的精确几何信息，帮助基于模拟数据训练的策略将一套复杂、长周期的任务成功率从 0% 提升到 85% 以上！现在，您甚至可以在模拟环境中训练，然后直接部署到真实机器人上，而无需进一步的领域自适应。只需将我们的 CDMs 插入您现有的管线即可！

✨ 亮点：

• 零样本（Zero-shot）模拟到现实迁移，成功率 73% 以上（基线为 0%）

• 仅使用深度信息进行模仿学习，成功率达 85% 以上

• 兼容 RealSense D435/L515、Kinect、ZED2i 等多种摄像头

🛠️ 一切皆开源：

• 针对 5 种不同摄像头型号的开源 CDMs

• 开源收集的 ByteCamDepth 数据集，包含 170K+ RGB-深度图像对，涵盖 7 种摄像头和 10 种配置，是一个全面的真实世界深度数据集。

• 开源码实现模拟到现实迁移、摄像头深度模型推理的代码。我们还共享了模块化的真实机器人控制框架，专为机器人抓取设计，为您提供统一的接口，用于控制各种机器人手臂、集成传感器以及实时执行策略！

• 基于我们框架的清晰的模拟到现实迁移教程！

请在 https://manipulation-as-in-simulation.github.io/ 上查看所有内容和交互式演示。

我们希望 CDMs 能成为您日常研究的基础！

操作如同模拟：赋能机器人精确的几何感知

摘要

评论