DualTHOR:一个用于应急感知规划的双臂人形模拟平台

发表
Börje KarlssonBörje Karlsson 提交
作者: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje KarlssonBörje F. Karlsson, YehuiTangYehui Tang, Zongqing Lu

摘要

开发能够处理真实世界复杂交互任务的具身智能体仍然是具身AI领域的一个根本性挑战。尽管模拟平台的最新进展极大地增强了任务多样性以训练具身视觉语言模型(VLM),但大多数平台依赖于简化的机器人形态并绕过了低级执行的随机性,这限制了它们向真实世界机器人的可迁移性。为了解决这些问题,我们推出了DualTHOR,一个基于AI2-THOR扩展版本构建的、用于复杂双臂人形机器人的基于物理的模拟平台。我们的模拟器包括真实世界的机器人资产、一套用于双臂协作的任务套件以及人形机器人的逆运动学求解器。我们还引入了偶发机制,通过基于物理的低级执行纳入潜在故障,弥合了与真实世界场景的差距。我们的模拟器能够更全面地评估VLM在家庭环境中的鲁棒性和泛化能力。广泛的评估表明,当前的VLM在双臂协调方面表现不佳,并且在具有偶发事件的真实环境中鲁棒性有限,这凸显了使用我们的模拟器开发更强大的具身任务VLM的重要性。代码可在https://github.com/ds199895/DualTHOR.git获取。
查看 arXiv 页面查看 PDF

评论

Börje KarlssonBörje Karlsson
论文作者
论文提交者

开发能够在真实世界场景中执行复杂交互任务的具身智能体仍然是具身 AI 中的一个根本性挑战。尽管模拟平台的最新进展大大增强了训练具身视觉语言模型 (VLM) 的任务多样性,但大多数平台依赖简化的机器人形态并绕过了低级执行的随机性,这限制了它们向真实世界机器人的可迁移性。为了解决这些问题,我们提出了一个基于物理的模拟平台 DualTHOR,用于复杂的双臂人形机器人,该平台建立在 AI2-THOR 的扩展版本之上。我们的模拟器包括真实世界机器人资产、双臂协作任务套件以及人形机器人的逆运动学求解器。我们还引入了一种应急机制,通过基于物理的低级执行来模拟潜在故障,弥合与真实世界场景的差距。我们的模拟器能够对 VLM 在家庭环境中的鲁棒性和泛化能力进行更全面的评估。大量评估表明,当前的 VLM 在双臂协调方面存在困难,并在存在偶发情况的真实环境中表现出有限的鲁棒性,这突显了使用我们模拟器开发更具能力的具身任务 VLM 的重要性。代码可在 https://github.com/ds199895/DualTHOR.git 获取。