ORV: 4D 基于占用率的机器人视频生成

发表
YangXiuyuYangXiuyu 提交
作者: YangXiuyuXiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao

摘要

通过远程操作获取真实世界的机器人仿真数据通常耗时且劳动密集。最近,动作驱动生成模型在机器人学习和仿真中获得了广泛应用,因为它们消除了安全隐患并减少了维护工作。然而,这些方法中使用的动作序列由于其全局粗略对齐,往往导致控制精度有限和泛化能力差。为了解决这些局限性,我们提出了ORV,一个以占据为中心的机器人视频生成框架,它利用4D语义占据序列作为细粒度表示,为视频生成提供更准确的语义和几何指导。通过利用基于占据的表示,ORV能够将仿真数据无缝转换为逼真的机器人视频,同时确保高时间一致性和精确的可控性。此外,我们的框架支持同时生成机器人抓取操作的多视角视频——这是下游机器人学习任务的一项重要能力。大量实验结果表明,ORV在各种数据集和子任务上始终优于现有的基线方法。演示、代码和模型:https://orangesodahub.github.io/ORV
查看 arXiv 页面查看 PDF

评论

YangXiuyuYangXiuyu
论文作者
论文提交者

项目主页: https://orangesodahub.github.io/ORV

代码: https://github.com/OrangeSodahub/ORV