一致性三位一体:通用世界模型的定义原则

发表
Cheng TanCheng Tan 提交
作者: Jingxuan Wei, Siyuan LiSiyuan Li, Yuhang Xu, Zheng Sun, Junjie Jiang, Hexuan Jin, Caijun Jia, Honghao He, Xinglong Xu, Xi bai, Chang Yu, Yumou Liu, Junnan Zhu, xuanhe zhouXuanhe Zhou, Jintao Chen, Xiaobin Hu, Shancheng Pang, Bihui Yu, Ran He, Zhen Lei, Stan Z. Li, Conghui He, Shuicheng Yan, Cheng TanCheng Tan

摘要

AI 生成总结
世界模型需要遵循三种一致性原则(模态、空间和时间)以实现通用人工智能,并提出了一个评估多模态学习系统的基准。
构建能够学习、模拟和推理客观物理规律的世界模型,是追求通用人工智能(AGI)的一项基础挑战。以 Sora 为代表的视频生成模型的近期进展表明,数据驱动的缩放法则具有近似物理动力学的潜力,而新兴的统一多模态模型(UMM)为整合感知、语言和推理提供了一种极具前景的架构范式。尽管取得了这些进展,该领域仍缺乏一个界定通用世界模型必备属性的系统性理论框架。在本文中,我们提出世界模型必须基于“一致性三位一体”:作为语义接口的模态一致性、作为几何基础的空间一致性以及作为因果引擎的时间一致性。通过这一三方视角,我们系统回顾了多模态学习的演进,揭示了从松散耦合的专用模块向统一架构演进的轨迹,后者促成了内部世界模拟器的协同涌现。为了补充这一概念框架,我们推出了 CoW-Bench,这是一个专注于多帧推理和生成场景的基准。CoW-Bench 在统一评估协议下同时评估视频生成模型和 UMM。我们的工作确立了通往通用世界模型的系统路径,阐明了当前系统的局限性以及未来进步所需的架构要求。
查看 arXiv 页面查看 PDF

评论

Cheng TanCheng Tan
论文作者
论文提交者

构建能够学习、模拟和推理客观物理规律的世界模型,是追求通用人工智能(AGI)过程中的一项基础性挑战。以 Sora 为代表的视频生成模型的最新进展,展示了数据驱动的缩放定律在逼近物理动力学方面的潜力,而新兴的统一多模态模型(UMM)为整合感知、语言和推理提供了一种极具前景的架构范式。尽管取得了这些进展,该领域仍缺乏一个定义通用世界模型所需基本属性的系统性理论框架。在本文中,我们提出世界模型必须植根于“一致性三位一体(Trinity of Consistency)”:作为语义接口的模态一致性、作为几何基础的空间一致性,以及作为因果引擎的时间一致性。通过这一三重视角,我们系统地回顾了多模态学习的演变,揭示了从松散耦合的专用模块向能够协同产生内部世界模拟器的统一架构演进的轨迹。为了补充这一概念框架,我们推出了 CoW-Bench,这是一个专注于多帧推理和生成场景的基准测试。CoW-Bench 在统一的评估协议下对视频生成模型和 UMM 进行评估。我们的工作为通向通用世界模型建立了一条原则性的路径,明确了当前系统的局限性以及未来进展所需的架构要求。

Cheng TanCheng Tan
论文作者
论文提交者

图片