⏶12
Action Images:通过多视图视频生成的端到端策略学习
发表
由
taesiri 提交
作者: Haoyu Zhen, Zixian Gao, Qiao Sun, Yilin Zhao, Yuncong Yang, Yilun Du, Tsun-Hsuan Wang, Yi-Ling Qiao, Chuang Gan
摘要
AI 生成总结
将策略学习制定为多视图视频生成的领域动作模型,利用像素锚定的动作图像来实现无需独立动作模块的零样本策略学习。世界动作模型(WAMs)已成为机器人策略学习的一个充满前景的方向,因为它们可以利用强大的视频骨干网来建模未来状态。然而,现有方法通常依赖独立的动作模块,或使用非像素落地的动作表示,这使得难以充分利用视频模型的预训练知识,并限制了跨视角和跨环境的迁移。在这项工作中,我们展示了 Action Images,一个将策略学习形式化为多视角视频生成的统一世界动作模型。我们没有将控制编码为低维 token,而是将 7 自由度机器人动作转化为可解释的“动作图像”:即根植于 2D 像素并明确追踪机械臂运动的多视角动作视频。这种像素落地的动作表示允许视频骨干网本身充当零样本策略,而无需单独的策略头或动作模块。除控制外,同一个统一模型还支持在共享表示下进行视频-动作联合生成、动作条件视频生成和动作标注。在 RLBench 和现实世界评估中,我们的模型实现了最强的零样本成功率,并提高了相比先前视频空间世界模型的视频-动作联合生成质量,这表明可解释的动作图像是策略学习的一条可行路径。