以对象为中心的表示改进机器人操作中的策略泛化

发表
Alexandre ChapinAlexandre Chapin 提交
作者: Alexandre ChapinAlexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen

摘要

视觉表示是机器人操纵策略学习和泛化能力的核心。虽然现有方法依赖全局或密集特征,但这些表示通常会混淆与任务相关和不相关的场景信息,从而限制了在分布变化下的鲁棒性。在这项工作中,我们研究了以对象为中心的表示(OCR)作为一种结构化的替代方案,它将视觉输入分割成一组固定的实体,引入了与操纵任务更自然对齐的归纳偏差。我们在模拟和现实世界的各种操纵任务(从简单到复杂)中,对一系列视觉编码器(以对象为中心、全局和密集方法)进行了基准测试,并评估了它们在不同视觉条件下(包括光照、纹理变化和干扰物存在)的泛化能力。我们的研究结果表明,即使没有任务特定的预训练,基于 OCR 的策略在泛化设置下也优于密集和全局表示。这些见解表明,OCR 是设计在动态、现实世界机器人环境中有效泛化的视觉系统的一个有前景的方向。
查看 arXiv 页面查看 PDF

评论

Alexandre ChapinAlexandre Chapin
论文作者
论文提交者

视觉表征是机器人操作策略学习和泛化能力的核心。现有方法依赖于全局或密集特征,但这些表征常常将任务相关和不相关的场景信息纠缠在一起,限制了其在分布偏移下的鲁棒性。在这项工作中,我们研究了以对象为中心的表征(OCR)作为一种结构化的替代方案,它将视觉输入分割成一组完整的实体,引入了与操作任务更自然对齐的归纳偏置。我们在从简单到复杂的模拟和真实世界操作任务集上,对一系列视觉编码器——以对象为中心的、全局的和密集的方法——进行了基准测试,并评估了它们在不同视觉条件下的泛化能力,包括光照、纹理变化和干扰物的存在。我们的研究结果表明,基于OCR的策略在泛化设置中优于密集和全局表征,即使没有进行任务特定的预训练。这些见解表明,OCR是设计能够在动态、真实世界机器人环境中有效泛化的视觉系统的一个有前景的方向。代码即将发布。