⏶5
H³DP:用于视觉运动学习的三重层次化扩散策略
发表
由
Yiyang Lu 提交

作者:
Yiyang Lu, Yufeng Tian, Zhecheng Yuan,
Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu


摘要
视觉运动策略学习在机器人操作领域取得了实质性进展,近期方法主要依赖生成模型来建模动作分布。然而,这些方法常常忽略了视觉感知和动作预测之间的关键耦合。在本工作中,我们引入了三重分层扩散策略~(H^{\mathbf{3}DP}),这是一种新颖的视觉运动学习框架,它明确地整合了分层结构,以加强视觉特征和动作生成之间的集成。H^{3}DP包含3个层级的层次结构:(1) 深度感知的输入分层,根据深度信息组织RGB-D观测数据;(2) 多尺度视觉表示,以不同粒度级别编码语义特征;以及(3) 分层条件扩散过程,将粗到细的动作生成与相应的视觉特征对齐。广泛的实验表明,H^{3}DP在44个模拟任务上的平均相对提升比基线模型高出+27.5%,并在4个具有挑战性的双臂真实世界操作任务中取得了卓越的性能。项目主页:https://lyy-iiis.github.io/h3dp/。
本文《H³DP: 用于视觉运动学习的三层分级扩散策略》提出了一种利用三层分级扩散策略解决视觉运动学习任务的新颖方法。这是对机器人学领域的宝贵贡献。