⏶14
SkillMimic-V2:从稀疏和嘈杂的演示中学习鲁棒且泛化的交互技能
发表
由
Runyi YU 提交
作者:
Runyi Yu, Yinhuai Wang,
Qihan Zhao, Hok Wai Tsui, Jingbo Wang, Ping Tan,
Qifeng Chen
摘要
我们解决了基于互动演示的强化学习 (RLID) 中的一个基本挑战:演示噪声和覆盖范围限制。现有数据收集方法虽然提供了有价值的互动演示,但通常产生稀疏、不连贯且嘈杂的轨迹,未能捕捉到所有可能的技能变体和转换的完整范围。我们的关键见解是,尽管演示存在噪声和稀疏性,但存在无限多个物理上可行的轨迹,它们自然地在演示的技能之间架起桥梁,或从其邻近状态中涌现,从而形成一个连续的可能技能变体和转换空间。基于这一见解,我们提出了两种数据增强技术:缝合轨迹图 (STG),用于发现演示技能之间的潜在转换;以及状态转移场 (STF),用于在演示邻域内建立任意状态之间的独特连接。为了实现使用增强数据进行有效的 RLID,我们开发了一种自适应轨迹采样 (ATS) 策略用于动态课程生成,以及一种历史编码机制用于依赖记忆的技能学习。我们的方法实现了鲁棒的技能获取,能够显著泛化到参考演示之外。在各种互动任务上的大量实验表明,我们的方法在收敛稳定性、泛化能力和恢复鲁棒性方面,比最先进的方法有了实质性改进。
"SkillMimic-V2:从稀疏和噪声示范中学习鲁棒和可泛化的交互技能" (arXiv:2505.02094) 提出了一种新颖的框架,用于训练物理模拟机器人掌握复杂的交互技能——例如运球、多技能转换和物体重新定位——这些技能的学习源于有限且不完美的示范。这项工作由香港科技大学和上海人工智能实验室的研究人员开发,解决了交互示范强化学习(RLID)中的关键挑战,包括训练数据中的噪声和覆盖范围限制。附带的图(图1)直观地突出了该框架从稀疏输入中泛化和恢复的能力。这篇论文已提交至 Daily Papers,这是一个社区驱动的影响力研究策展平台,它为推进机器人在现实世界场景中的适应性提供了见解。