StaMo:从紧凑的状态表示中进行无监督的可泛化机器人运动学习

发表
Mingyu LiuMingyu Liu 提交
作者: Mingyu LiuMingyu Liu, Jiuhe Shu, Hui Chen, Zeju LiZeju Li, Canyu Zhao, Jiange Yang, Shenyuan Gao, Hao Chen, Chunhua Shen

摘要

AI 生成总结
一种无监督方法利用轻量级编码器和扩散 Transformer 解码器学习紧凑的状态表示,从而提高机器人性能并实现从静态图像进行潜在动作解码。
具身智能面临的一项基本挑战是开发富有表现力且紧凑的状态表示,以实现高效的世界建模和决策。然而,现有方法往往无法实现这种平衡,产生的表示要么过于冗余,要么缺乏任务关键信息。我们提出了一种无监督方法,该方法使用轻量级编码器和预训练的扩散 Transformer (DiT) 解码器,利用其强大的生成先验,学习高度压缩的双 token 状态表示。我们的表示高效、可解释,并能无缝集成到现有的 VLA 模型中,在 LIBERO 上将性能提高了 14.3%,在真实任务成功率上提高了 30%,同时推理开销极小。更重要的是,我们发现通过潜在插值获得的这些 token 之间的差异,自然地充当了非常有效的潜在动作,可以进一步解码为可执行的机器人动作。这种涌现的能力表明我们的表示在没有明确监督的情况下捕获了结构化动力学。我们将我们的方法命名为 StaMo,因为它能够从紧凑的状态表示中学习可泛化的机器人运动,该状态表示由静态图像编码,挑战了目前对复杂架构和视频数据上学习潜在动作的普遍依赖。由此产生的潜在动作也增强了策略的联合训练,在可解释性得到改善的情况下,比以前的方法提高了 10.4%。此外,我们的方法可以有效地扩展到包括真实机器人数据、模拟和人类自我中心视频在内的各种数据源。
查看 arXiv 页面查看 PDF

评论

Mingyu LiuMingyu Liu
论文作者
论文提交者

StaMo