⏶4
用于机器人学习的自适应改进循环
发表
由
Chen Sun 提交

作者:
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du,
Chen Sun

摘要
在专家演示上训练的视频生成模型已被用作高性能的文本条件视觉规划器,用于解决机器人任务。然而,泛化到未见任务仍然是一个挑战。尽管通过利用从额外预收集的离线数据源(如网络规模视频数据集)中学习到的先验知识可以促进泛化能力的提升,但在经验时代,我们的目标是设计能够从自收集行为中以在线方式持续改进的智能体。在这项工作中,我们因此提出了自适应改进循环(SAIL),其中一个域内视频模型通过与互联网规模的预训练视频模型进行适应性学习,在自生成的轨迹上迭代更新自身,并稳步提高其在特定感兴趣任务上的性能。我们将 SAIL 应用于 MetaWorld 的多样化任务集以及真实机器人手臂上的两个操作任务,发现对于在原始域内视频模型训练中最初未见的新任务,性能改进在多次迭代中持续出现。此外,我们发现 SAIL 在自收集经验是否以及如何被过滤以及初始域内演示的质量方面具有惊人的鲁棒性。通过与总结的互联网规模数据进行适应性学习,并从在线经验中学习,我们展示了一种通过自我改进迭代引导高性能视频模型来解决新颖机器人任务的方法。
项目页面:https://diffusion-supervision.github.io/sail/
https://cdn-uploads.huggingface.co/production/uploads/64b6bac29bdb2adec64b1f86/xetjThajX_RInj8X8Gevx.qt