统一世界模型:耦合视频和动作扩散以在大规模机器人数据集上进行预训练

发表
Chuning ZhuChuning Zhu 提交
作者: Chuning Zhu, Raymond YuRaymond Yu, Siyuan Feng, Benjamin Burchfiel, Paarth Shah, Abhishek Gupta

摘要

模仿学习已成为构建通用机器人的一种有前景的方法。然而,由于其对高质量专家演示的依赖,扩展模仿学习以用于大型机器人基础模型仍然具有挑战性。同时,大量描绘各种环境和多样化行为的视频数据也很容易获得。这些数据提供了关于真实世界动力学和智能体-环境交互的丰富信息来源。然而,由于大多数当代方法需要动作注释,因此直接利用这些数据进行模仿学习已被证明是困难的。在这项工作中,我们提出了统一世界模型 (UWM),这是一个允许利用视频和动作数据进行策略学习的框架。具体来说,UWM 在统一的 Transformer 架构中集成了动作扩散过程和视频扩散过程,其中独立的扩散时间步长控制每个模态。我们表明,通过简单地控制每个扩散时间步长,UWM 可以灵活地表示策略、前向动力学、逆向动力学和视频生成器。通过模拟和真实世界的实验,我们表明:(1)UWM 能够对具有动力学和动作预测的大规模多任务机器人数据集进行有效的预训练,从而产生比模仿学习更通用和更鲁棒的策略,(2)UWM 通过独立控制特定于模态的扩散时间步长,自然地促进从无动作视频数据中学习,进一步提高了微调策略的性能。我们的结果表明,UWM 为利用大型异构数据集进行可扩展机器人学习迈出了有希望的一步,并为模仿学习和世界建模这两种通常不同的范式之间提供了简单的统一。视频和代码可在 https://weirdlabuw.github.io/uwm/ 获取。
查看 arXiv 页面查看 PDF

评论

Chuning ZhuChuning Zhu
论文提交者

统一世界模型 (UWM) 是一种多模态扩散 Transformer,它对动作和视频使用单独的扩散时间步长,以灵活地从机器人和视频数据中学习策略、前向动力学、逆向动力学和视频预测模型。