OpenWorldLib:高级世界模型的统一代码库与定义

发表
taesiritaesiri 提交
作者: DataFlow Team, bohan zengBohan Zeng, Daili Hua, kaixin zhuKaixin Zhu, Yifan DaiYifan Dai, Bozhou LiBozhou Li, Yuran WangYuran Wang, Chengzhuo Tong, Yifan Yang, Mingkun ChangMingkun Chang, Jianbin Zhao, Zhou Liu, Hao Liang, Xiaochen MaXiaochen Ma, Ruichuan An, Junbo Niu, Zimo Meng, Tianyi Bai, Meiyi Qiang, Huanyao Zhang, Zhiyou Xiao, Tianyu Guo, Qinhan Yu, Runhao Zhao, Zhengpin Li, Xinyi Huang, Yisheng Pan, Yiwen Tang, Yang ShiYang Shi, Yue Ding, Xinlong Chen, Hongcheng Gao, Minglei Shi, Jialong WuJialong Wu, Zekun Wang, Yuanxing Zhang, Xintao Wang, Pengfei Wan, Yiren Song, Mike Zheng Shou, Wentao Zhang

摘要

AI 生成总结
OpenWorldLib 提出了一个高级世界模型的标准化框架,该框架集成了感知、交互和长期记忆能力,以实现对世界的全面理解和预测。
世界模型作为人工智能领域一个充满前景的研究方向受到了广泛关注,但目前仍缺乏清晰且统一的定义。在本文中,我们推出了 OpenWorldLib,这是一个针对高级世界模型的全面且标准化的推理框架。借鉴世界模型的演进历程,我们提出了一个清晰的定义:世界模型是以感知为核心,具备交互和长期记忆能力,用于理解和预测复杂世界的模型或框架。我们进一步系统地分类了世界模型的核心能力。基于此定义,OpenWorldLib 在统一框架下集成了跨不同任务的模型,实现了高效的复用和协同推理。最后,我们就世界模型研究的潜在未来方向提出了进一步的思考和分析。代码链接:https://github.com/OpenDCAI/OpenWorldLib
查看 arXiv 页面查看 PDF

评论

bohan zengbohan zeng
论文作者

大家好,欢迎关注我们的工作。鉴于目前世界模型研究的多样性,我们旨在为世界模型提供统一的定义和调用标准,为这一方向建立清晰的边界。如果您感兴趣,或者想推广自己与世界模型相关的工作,欢迎在我们的代码链接中提出 Issue:https://github.com/OpenDCAI/OpenWorldLib

bohan zengbohan zeng
论文作者

需要注意的一点是:因为我们的目标是涵盖尽可能多的方法,所以环境相对复杂。该代码库主要支持不同世界模型任务的推理。对于训练、奖励设置及类似方面,本项目目前暂不支持。在我们的下一个项目中,我们将专注于为每个任务训练和优化最轻量且最有效的模型。

liuliu

干得漂亮!

bohan zengbohan zeng
论文作者

非常感谢!

Mishig DavaadorjMishig Davaadorj

基于论文 "OpenWorldLib: A Unified Codebase and Definition of Advanced World Models",以下是主要结果的解析:

1. 交互式视频生成结果

评估涵盖了导航视频生成(相机移动)和交互式视频生成(物理交互)。主要发现包括:

  • Matrix-Game-2:提供快速的生成速度,但在长时程生成过程中存在明显的偏色问题。
  • Lingbot-World、Hunyuan-GameCraft 和 YUME-1.5:成功支持高质量的导航视频生成。
  • Hunyuan-WorldPlay:在导航视频生成方面实现了最佳的整体视觉表现
  • Wan-IT2V:可以执行基础的交互式生成,但难以维持物理一致性
  • WoW (World Omniscient World Model):支持多种功能,但与 Cosmos 相比,其生成质量和物理真实感显著较差

图 4:交互式视频生成结果演示,展示了导航和交互场景

2. 3D 生成结果

3D 生成流水线支持具有移动控制和相机视角调整的场景重建:

  • VGGT 和 InfiniteVGGT:可以从不同视角生成 3D 场景,但在相机大幅度移动时,复杂区域会出现几何不一致纹理模糊
  • FlashWorld:提供更快的生成速度,但平衡稳定的形状与锐利的细节仍是一个重大挑战。
  • 尽管存在局限性,3D 生成对于世界模型中的真实物理模拟仍然至关重要。

图 5:3D 场景生成结果演示

3. 视觉-语言-动作 (VLA) 生成结果

该框架通过两种模拟范式评估具身智能:

  • AI2-THOR:用于具有逼真场景渲染的具身视频生成。
  • LIBERO:用于具有物理接地操作环境的 VLA 评估。

评估的关键模型:
- π₀ 和 π₀.₅:利用 PaliGemma 视觉-语言主干网络结合混合专家 (MoE) 动作头,实现鲁棒的多任务泛化。
- LingBot-VA:从生成式角度处理任务,使用视频扩散架构联合建模视觉未来预测和连续动作合成。

图 6:来自 LIBERO 和 AI2-THOR 环境的模拟器生成结果演示,展示了操作任务

4. 多模态推理能力

推理模块展示了:
- 空间推理:以几何为中心的查询、物体关系,以及从视觉输入进行分步空间演绎。
- 全能/通用推理:跨混合模态(文本、图像、音频、视频)运行,以遵循广泛的指令。
- 功能:将内部感知和记忆转化为接地的决策、解释和规划,从而指导下游的生成或控制。

框架架构概览

OpenWorldLib 通过模块化组件统一了这些能力:

图 1:OpenWorldLib 框架概览,涵盖感知、理解、记忆和生成

图 2:OpenWorldLib 框架的详细说明,展示了算子、合成、推理、表示、记忆模块及流水线

核心洞察:论文确立了虽然当前世界模型在下一帧预测方面表现出色,但在长时程交互中保持物理一致性,以及在视频、3D 和具身动作任务中平衡生成速度与质量方面仍面临重大挑战。

Yury PanikovYury Panikov

非常有意思,谢谢!

bohan zengbohan zeng
论文作者

感谢您的关注。如果您有任何需要推广的工作,请随时与我们分享。我们会在我们的框架内协助推广~

Mishig DavaadorjMishig Davaadorj
OpenWorldLib:先进世界模型的统一代码库与定义

OpenWorldLib 为世界模型提供了一个统一的代码库、分类法和评估框架。世界模型是一类日益重要的人工智能系统,旨在学习模拟和预测世界的运作方式。该项目将视频生成、物理模拟、3D 场景理解、动作条件预测和语言接地模型等分散的研究工作整合到一个具有标准化基准测试的组织化库中。这是一个涉及北京大学、快手、香港科技大学、清华大学、新加坡国立大学、上海交通大学等多家机构的协作项目。

核心思想

本文介绍了一种结构化的世界模型分类法,涵盖五大类别:视频生成、物理模拟、3D 场景重建、动作条件预测和语言接地模型。这种分类法为此前分散在互不关联的研究社区中的领域提供了共同的术语和组织结构。

WorldModelTaxonomy

方法/路径

OpenWorldLib 将此前零散的仓库和实现统一到一个具有一致 API 的代码库中。研究人员可以使用相同的框架对不同类别的世界模型进行训练、评估和比较,极大地降低了准入门槛,并实现了公平的同类比较。该库包含一个标准化的基准测试流水线,通过已有的指标(FVD、FID、SSIM、LPIPS)引导模型完成生成、评估和评分阶段。

UnifiedCodebase

BenchmarkPipeline

结果

通过将多样的世界模型实现整合在一起,OpenWorldLib 实现了对此前使用不兼容设置进行评估的模型系列进行系统性比较。标准化的评估流水线确保了报告的指标具有直接可比性,为社区跟踪世界模型进展提供了可靠的基础。