⏶24
学习用于机器人操作的视频生成与协同轨迹控制
发表
由
Xiao Fu 提交

作者: Xiao Fu,
Xintao Wang, Xian Liu,
Jianhong Bai,
Runsen Xu, Pengfei Wan, Di Zhang,
Dahua Lin


摘要
视频扩散模型的最新进展已在生成机器人决策数据方面展示出强大潜力,其中轨迹条件进一步实现了细粒度控制。然而,现有的基于轨迹的方法主要关注单个对象的运动,难以捕捉复杂机器人操作中至关重要的多对象交互。这种局限性源于重叠区域中的多特征纠缠,这导致视觉保真度下降。为解决此问题,我们提出了 RoboMaster,一个通过协同轨迹公式对对象间动态进行建模的新颖框架。与以往分解对象的方法不同,我们的核心是将交互过程分解为三个子阶段:预交互、交互和后交互。每个阶段都使用主导对象的特征进行建模,具体而言,在预交互和后交互阶段是机械臂的特征,而在交互期间是被操作对象的特征,从而减轻了现有工作中在交互过程中多对象特征融合的缺点。为了进一步确保视频中主体语义的一致性,我们为对象整合了外观感知和形状感知的潜在表示。在具有挑战性的 Bridge V2 数据集以及实际环境评估中的大量实验表明,我们的方法优于现有方法,在机器人操作的轨迹控制视频生成方面建立了新的最先进性能。
项目页面: https://fuxiao0719.github.io/projects/robomaster/
代码: https://github.com/KwaiVGI/RoboMaster