Genie Envisioner:一个用于机器人操作的统一世界基础平台

发表
Guanghui RenGuanghui Ren 提交
作者: Yue Liao, Pengfei Zhou, SiyuanSiyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan LuoJianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui RenGuanghui Ren

摘要

我们引入了“精灵愿景者”(GE),这是一个用于机器人操作的统一世界基础平台,它将策略学习、评估和仿真集成在一个视频生成框架中。其核心是 GE-Base,一个大规模、受指令控制的视频扩散模型,它在结构化的潜在空间中捕捉真实世界机器人交互的空间、时间和语义动态。在此基础上,GE-Act 通过一个轻量级的流匹配解码器将潜在表示映射到可执行的动作轨迹,从而以最少的监督实现跨不同实体(embodiments)的精确和可泛化策略推理。为了支持可扩展的评估和训练,GE-Sim 作为一个动作条件神经模拟器,为闭环策略开发生成高保真度的模拟。该平台还配备了 EWMBench,一个标准化的基准套件,用于衡量视觉保真度、物理一致性和指令-动作对齐。所有这些组件共同使 Genie Envisioner 成为一个可扩展且实用的、以指令驱动的通用具身智能基础。所有代码、模型和基准将公开发布。
查看 arXiv 页面查看 PDF

评论

Guanghui RenGuanghui Ren
论文作者
论文提交者

项目页面:https://genie-envisioner.github.io/

我们介绍了 Genie Envisioner (GE),一个用于机器人操作的统一世界基础平台,它将策略学习、评估和模拟集成到单个视频生成框架中。GE-Base 的核心是一个大规模、指令条件的视频扩散模型,它在结构化的潜在空间中捕捉真实世界机器人交互的空间、时间和语义动态。在此基础上,GE-Act 通过轻量级的流匹配解码器将潜在表示映射到可执行的动作轨迹,从而以最少的监督实现跨不同实体(embodiments)的精确和可泛化策略推理。为了支持可扩展的评估和训练,GE-Sim 作为一个动作条件的神经模拟器,为闭环策略开发生成高保真度的数据序列。该平台还配备了 EWMBench,一个标准化的基准套件,用于衡量视觉保真度、物理一致性和指令-动作对齐。所有这些组件共同使 Genie Envisioner 成为一个可扩展且实用的、以指令驱动的通用具身智能基础平台。

image.png