⏶17
RoboTwin 2.0:一个具有强域随机化的可扩展数据生成器和基准,用于鲁棒的双臂机器人操作
发表
由
Tianxing Chen 提交

作者:
Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu

摘要
基于仿真的数据合成已成为增强真实世界机器人操作的强大范式。然而,由于两个挑战,现有合成数据集仍不足以支持鲁棒的双臂操作:(1) 缺乏高效、可扩展的针对新任务的数据生成方法,以及 (2) 过度简化的仿真环境未能捕捉真实世界的复杂性。我们提出了 RoboTwin 2.0,一个可扩展的仿真框架,能够自动化、大规模地生成多样化且真实的数据,并提供统一的双臂操作评估协议。我们首先构建了 RoboTwin-OD,一个大型物体库,包含 147 个类别中的 731 个实例,每个实例都标注了语义和操作相关标签。在此基础上,我们开发了一个专家数据合成流水线,结合多模态大型语言模型(MLLM)和仿真循环优化,自动生成任务级执行代码。为了改进模拟到真实世界的迁移,RoboTwin 2.0 在五个维度上引入了结构化域随机化:杂乱、光照、背景、桌面高度和语言指令,从而增强了数据多样性和策略鲁棒性。我们将此框架应用于 50 个双臂任务,涵盖五种机器人实体,并预先收集了超过 100,000 条域随机化的专家轨迹。实证结果显示,代码生成成功率提高了 10.9%,并且对新颖的真实世界场景的泛化能力有所提高。在我们数据集上进行微调的 VLA 模型在未见场景真实世界任务上实现了 367% 的相对提升(42.0% 对 9.0%),而仅通过我们的合成数据训练的零样本模型实现了 228% 的相对提升,这突显了在没有真实世界监督的情况下强大的泛化能力。我们发布了数据生成器、基准、数据集和代码,以支持鲁棒双臂操作领域的可扩展研究。
RoboTwin 2.0