⏶5
3DFlowAction: 从3D流世界模型中学习跨具身操作
发表
由
Hongyan Zhi 提交

作者:
Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan

摘要
操作长期以来一直是机器人的一个挑战性任务,而人类可以毫不费力地执行复杂的物体交互,例如将杯子挂在杯架上。一个关键原因是缺乏一个大型且统一的数据集来教授机器人操作技能。当前的机器人数据集通常在简单的场景中记录机器人在不同动作空间中的动作。这阻碍了机器人学习一个统一且鲁棒的动作表示,以适应不同场景中的不同机器人。观察人类如何理解操作任务,我们发现理解物体如何在3D空间中移动是指导动作的关键线索。这条线索与具体形态无关,适用于人类和不同的机器人。受此启发,我们旨在从人类和机器人的操作数据中学习一个3D流世界模型。该模型预测交互物体在3D空间中的未来运动,从而指导操作的动作规划。具体而言,我们通过一个移动物体自动检测管道合成了一个名为ManiFlow-110k的大规模3D光流数据集。然后,一个基于视频扩散的世界模型从这些数据中学习操作物理,根据语言指令生成3D光流轨迹。利用生成的3D物体光流,我们提出了一种流引导渲染机制,该机制渲染预测的最终状态,并利用GPT-4o评估预测流是否与任务描述对齐。这赋予了机器人闭环规划能力。最后,我们将预测的3D光流作为优化策略的约束,以确定机器人进行操作的一系列动作。广泛的实验表明,该方法在多样化的机器人操作任务中表现出强大的泛化能力,并且无需特定硬件训练即可实现可靠的跨形态适应。
长期以来,操纵一直是机器人面临的挑战性任务,而人类可以毫不费力地完成与物体的复杂交互,例如将杯子挂在杯架上。一个关键原因是缺乏用于教授机器人操纵技能的大型且统一的数据集。当前的机器人数据集通常在简单场景中记录不同动作空间内的机器人动作。这阻碍了机器人在不同场景中为不同机器人学习统一且鲁棒的动作表示。观察人类如何理解操纵任务,我们发现理解物体应如何在3D空间中移动是指导动作的关键线索。这条线索与具体形态无关,适用于人类和不同的机器人。受此启发,我们旨在从人类和机器人的操纵数据中学习一个3D流世界模型。该模型预测交互物体在3D空间中的未来运动,从而指导操纵的动作规划。具体来说,我们通过一个移动物体自动检测流程,合成了一个名为ManiFlow-110k的大规模3D光流数据集。然后,一个基于视频扩散的世界模型从这些数据中学习操纵物理,生成基于语言指令的3D光流轨迹。利用生成的3D物体光流,我们提出了一种流引导的渲染机制,该机制渲染预测的最终状态,并利用GPT-4o评估预测的光流是否与任务描述一致。这使机器人具备了闭环规划能力。最后,我们将预测的3D光流视为优化策略的约束,以确定用于操纵的一系列机器人动作。大量实验证明,该方法在各种机器人操纵任务中具有强大的泛化能力,并且无需特定硬件训练即可实现可靠的跨形态适应。