⏶4
Robo2VLM: 来自大规模真实世界机器人操作数据集的视觉问答
发表
由
Kaiyuan Eric Chen 提交

作者:
Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg

摘要
视觉-语言模型 (VLMs) 通过互联网规模的图像-文本语料库获取现实世界知识和通用推理能力。它们可以通过场景理解和任务规划来增强机器人系统,并协助在机器人轨迹数据上训练的视觉运动策略。我们探索相反的范式——使用丰富的、真实的、多模态的机器人轨迹数据来增强和评估 VLMs。在本文中,我们提出了 Robo2VLM,这是一个用于 VLMs 的视觉问答 (VQA) 数据集生成框架。给定人类遥控的机器人轨迹,Robo2VLM 从非视觉和非描述性感知模态(例如,末端执行器位姿、抓手开度、力感知)推导出地面真值。基于这些模态,它将机器人轨迹分割成一系列操作阶段。在每个阶段,Robo2VLM 利用场景和交互理解来识别机器人、任务目标和目标物体的 3D 属性。这些属性用于生成代表性的 VQA 查询——带有文本选择题的图像——基于空间、目标条件和交互推理的问题模板。我们整理了 Robo2VLM-1,这是一个大规模的真实世界数据集,包含来自 17.6 万条真实机器人轨迹的 684,710 个问题,涵盖 463 个不同的场景和 3,396 个机器人操作任务。结果表明,Robo2VLM-1 可以用于基准测试和改进 VLMs 在空间和交互推理方面的能力。

Robo2VLM 是一个从机器人轨迹数据生成视觉问答(VQA)的框架。它基于真实的视觉和具身输入,生成了一个包含 67 万个问题的大规模操作 VQA 数据集。