⏶13
UniSkill:通过跨形态技能表征模仿人类视频
发表
由
Hanjung Kim 提交
作者:
Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee
摘要
模仿是人类一项基础的学习机制,它使个体能够通过观察和模仿专家来学习新任务。然而,将这种能力应用于机器人却带来了巨大的挑战,因为人类和机器人实体在视觉外观和物理能力上存在固有的差异。虽然先前的方法利用共享场景和任务的跨实体数据集来弥合这一差距,但大规模收集人类和机器人之间这种对齐的数据并非易事。在本文中,我们提出了UniSkill,一个新颖的框架,它能从未标注的大规模跨实体视频数据中学习与实体无关的技能表示,从而使得从人类视频提示中提取的技能能够有效地迁移到仅使用机器人数据训练的机器人策略上。我们在模拟和现实环境中的实验表明,即使面对未曾见过的视频提示,我们的跨实体技能也能成功地指导机器人选择适当的动作。项目网站可在以下地址找到:https://kimhanjung.github.io/UniSkill。
从人类视频中学习是解决机器人学习中数据稀缺问题的一个有前景的方向,但现有方法依赖于人机对齐或中间表示(例如轨迹),这限制了其可扩展性。我们如何在不依赖任何标签或数据收集约束的情况下,利用大规模视频数据集(无论是来自机器人还是人类)?我们提出了 UniSkill,这是一个框架,它能从大规模、无标签、跨载体形态的视频数据中学习与载体形态无关的技能表示。这些表示使仅在机器人数据上训练的机器人策略能够模仿人类视频提示中的技能,并支持灵活的子目标生成,而无论演示的载体形态如何。
项目页面:https://kimhanjung.github.io/UniSkill/
X 帖子:https://x.com/KimD0ing/status/1922642025381306706