⏶21
经验是最好的老师:通过自生成记忆将VLM扎根于机器人技术
发表
由
Haitham Bou Ammar 提交

作者: Guowei Lan, Kaixian Qu, René Zurbrügg, Changan Chen, Christopher E. Mower,
Haitham Bou-Ammar, Marco Hutter

摘要
视觉-语言模型(VLM)已在机器人领域被广泛采用,以实现自主规划。然而,将VLMs(其最初在互联网数据上训练)接地到多样化的现实世界机器人仍然是一个挑战。本文提出了ExpTeach,一个通过构建自生成的真实世界经验记忆,将VLM接地到物理机器人的框架。在ExpTeach中,VLM以闭环方式自主规划行动、验证结果、反思失败并调整机器人行为。在此过程中自生成的经验随后被总结为长期记忆,从而可以通过检索增强生成(RAG)来检索所学知识以指导未来的任务。此外,ExpTeach通过一个按需图像标注模块增强了VLM的空间理解能力。在实验中,我们表明反思将四项具有挑战性的机器人任务的成功率从36%提高到84%,并观察到智能对象交互的出现,包括创造性的工具使用。在对12个真实世界场景(包括8个未曾见过的场景)的广泛测试中,我们发现利用长期记忆进行接地将单次尝试成功率从22%提升至80%,证明了ExpTeach的有效性和泛化能力。
每个人都希望在机器人技术中使用VLM,但VLM并未在机器人领域进行训练或扎根!因此,我们通过提出ExPTeach来解决这个问题:经验是最好的老师,我们通过自生成记忆来使VLM扎根于机器人领域。
令人惊叹的是,它能够通过利用存储在记忆中的过往经验从失败中恢复。