OpenWorldLib:高级世界模型的统一代码库与定义
摘要
评论
基于论文 "OpenWorldLib: A Unified Codebase and Definition of Advanced World Models",以下是主要结果的解析:
评估涵盖了导航视频生成(相机移动)和交互式视频生成(物理交互)。主要发现包括:
- Matrix-Game-2:提供快速的生成速度,但在长时程生成过程中存在明显的偏色问题。
- Lingbot-World、Hunyuan-GameCraft 和 YUME-1.5:成功支持高质量的导航视频生成。
- Hunyuan-WorldPlay:在导航视频生成方面实现了最佳的整体视觉表现。
- Wan-IT2V:可以执行基础的交互式生成,但难以维持物理一致性。
- WoW (World Omniscient World Model):支持多种功能,但与 Cosmos 相比,其生成质量和物理真实感显著较差。

3D 生成流水线支持具有移动控制和相机视角调整的场景重建:
- VGGT 和 InfiniteVGGT:可以从不同视角生成 3D 场景,但在相机大幅度移动时,复杂区域会出现几何不一致和纹理模糊。
- FlashWorld:提供更快的生成速度,但平衡稳定的形状与锐利的细节仍是一个重大挑战。
- 尽管存在局限性,3D 生成对于世界模型中的真实物理模拟仍然至关重要。

该框架通过两种模拟范式评估具身智能:
- AI2-THOR:用于具有逼真场景渲染的具身视频生成。
- LIBERO:用于具有物理接地操作环境的 VLA 评估。
评估的关键模型:
- π₀ 和 π₀.₅:利用 PaliGemma 视觉-语言主干网络结合混合专家 (MoE) 动作头,实现鲁棒的多任务泛化。
- LingBot-VA:从生成式角度处理任务,使用视频扩散架构联合建模视觉未来预测和连续动作合成。

推理模块展示了:
- 空间推理:以几何为中心的查询、物体关系,以及从视觉输入进行分步空间演绎。
- 全能/通用推理:跨混合模态(文本、图像、音频、视频)运行,以遵循广泛的指令。
- 功能:将内部感知和记忆转化为接地的决策、解释和规划,从而指导下游的生成或控制。
OpenWorldLib 通过模块化组件统一了这些能力:


核心洞察:论文确立了虽然当前世界模型在下一帧预测方面表现出色,但在长时程交互中保持物理一致性,以及在视频、3D 和具身动作任务中平衡生成速度与质量方面仍面临重大挑战。
OpenWorldLib 为世界模型提供了一个统一的代码库、分类法和评估框架。世界模型是一类日益重要的人工智能系统,旨在学习模拟和预测世界的运作方式。该项目将视频生成、物理模拟、3D 场景理解、动作条件预测和语言接地模型等分散的研究工作整合到一个具有标准化基准测试的组织化库中。这是一个涉及北京大学、快手、香港科技大学、清华大学、新加坡国立大学、上海交通大学等多家机构的协作项目。
本文介绍了一种结构化的世界模型分类法,涵盖五大类别:视频生成、物理模拟、3D 场景重建、动作条件预测和语言接地模型。这种分类法为此前分散在互不关联的研究社区中的领域提供了共同的术语和组织结构。

OpenWorldLib 将此前零散的仓库和实现统一到一个具有一致 API 的代码库中。研究人员可以使用相同的框架对不同类别的世界模型进行训练、评估和比较,极大地降低了准入门槛,并实现了公平的同类比较。该库包含一个标准化的基准测试流水线,通过已有的指标(FVD、FID、SSIM、LPIPS)引导模型完成生成、评估和评分阶段。


通过将多样的世界模型实现整合在一起,OpenWorldLib 实现了对此前使用不兼容设置进行评估的模型系列进行系统性比较。标准化的评估流水线确保了报告的指标具有直接可比性,为社区跟踪世界模型进展提供了可靠的基础。
大家好,欢迎关注我们的工作。鉴于目前世界模型研究的多样性,我们旨在为世界模型提供统一的定义和调用标准,为这一方向建立清晰的边界。如果您感兴趣,或者想推广自己与世界模型相关的工作,欢迎在我们的代码链接中提出 Issue:https://github.com/OpenDCAI/OpenWorldLib 。