姿势感知状态在视觉运动策略中是必需的吗?

发表
Mohan JiangMohan Jiang 提交
作者: JT ZhaoJuntu Zhao, Wenbo LuWenbo Lu, Di Zhang, lyfengYufeng Liu, Yushen LiangYushen Liang, Tianluo Zhang, Yifeng CaoYifeng Cao, Junyuan XieJunyuan Xie, Yingdong Hu, Shengjie Wang, Junliang GuoJunliang Guo, Dequan WangDequan Wang, Yang Gao

摘要

AI 生成总结
一个仅使用视觉观测的状态无关策略,在机器人操作任务中比基于状态的策略具有更好的空间泛化能力和数据效率。
基于模仿学习的视觉运动策略已广泛应用于机器人操作,其中通常同时采用视觉观测和本体感觉状态进行精确控制。然而,在本研究中,我们发现这种常见的做法使策略过度依赖于本体感觉状态输入,这会导致对训练轨迹的过拟合并导致空间泛化能力不足。相反,我们提出了无状态策略(State-free Policy),它消除了本体感觉状态输入,仅基于视觉观测进行动作预测。无状态策略构建在相对末端执行器动作空间中,并应确保所有与任务相关的视觉观测,此处由双广角腕部相机提供。实证结果表明,与基于状态的策略相比,无状态策略在空间泛化方面表现出更强的能力:在真实的拾放、具有挑战性的叠衬衫和复杂的全身操作等任务中,跨越多个机器人实体,在高度泛化方面平均成功率从 0% 提高到 85%,在水平泛化方面从 6% 提高到 64%。此外,它们在数据效率和跨实体适应性方面也显示出优势,提高了其在现实世界部署中的实用性。
查看 arXiv 页面查看 PDF

评论

Mohan JiangMohan Jiang
论文提交者

基于模仿学习的视觉运动策略已广泛应用于机器人操作中,通常同时采用视觉观测和本体感觉状态进行精确控制。然而,在本研究中,我们发现这种普遍做法使得策略过度依赖本体感觉状态输入,导致对训练轨迹的过度拟合,从而产生较差的空间泛化能力。相反,我们提出了 State-free Policy,它消除了本体感觉状态输入,仅根据视觉观测来预测动作。State-free Policy 构建在相对末端执行器动作空间中,并应确保充分的任务相关视觉观测,在此由双广角腕部相机提供。实证结果表明,State-free Policy 在空间泛化方面比基于状态的策略取得了显著更强的泛化能力:在实际任务中,如拾放、具有挑战性的衬衫折叠和复杂的全身操纵,跨越多个机器人实体,在高度泛化方面平均成功率从 0% 提高到 85%,在水平泛化方面从 6% 提高到 64%。此外,它们在数据效率和跨实体适应性方面也显示出优势,提高了其实际部署的实用性。访问 https://statefreepolicy.github.io 了解更多信息。