从世界模型视角探究视频生成:状态与动力学

发表
ZhiFei ChenZhiFei Chen 提交
作者: luozhou wangLuozhou Wang, ZhiFei ChenZhifei Chen, Yihua DuYihua Du, Dongyu YanDongyu Yan, wenhang geWenhang Ge, Guibao SHENGuibao Shen, Xinli XUXinli Xu, Leyi Wu, Man Chen, Tianshuo XuTianshuo Xu, Peiran RENPeiran Ren, Xin Tao, Pengfei Wan, Ying-Cong Chen

摘要

AI 生成总结
视频生成模型根据状态构建和动力学建模方法进行分类,重点是将评估指标从视觉质量转向物理持久性和因果推理等功能性能力。
大规模视频生成模型已展现出涌现的物理一致性,使其具备了作为潜在世界模型的潜力。然而,当代“无状态”视频架构与经典的以状态为中心的世界模型理论之间仍存在差距。本研究通过提出一种以两个支柱为中心的新型分类法来弥补这一差距:状态构建和动力学建模。我们将状态构建分为隐式范式(上下文管理)和显式范式(潜在压缩),而动力学建模则通过知识集成和架构重构进行分析。此外,我们主张评估方式应从视觉保真度向功能性基准转变,测试物理持久性和因果推理。最后,我们确定了两个关键的前沿方向:通过数据驱动的记忆和压缩保真度增强持久性,以及通过潜在因子解耦和推理先验集成来推进因果关系。通过解决这些挑战,该领域可以从生成视觉上看似合理的视频演进为构建稳健、通用的世界模拟器。
查看 arXiv 页面查看 PDF

评论

ZhiFei ChenZhiFei Chen
论文作者
论文提交者

虽然大规模视频生成模型显示出涌现物理连贯性的迹象,但它们与真正的世界模型仍有区别。现代“无状态”视频架构与经典控制理论的“以状态为中心”需求之间仍存在关键差距。本综述弥合了这一鸿沟。我们提出了一个基于状态构建(隐式上下文 vs. 显式潜在压缩)和动力学建模的新分类法。我们主张,该领域的评估标准必须从简单的视觉保真度转向功能性基准——特别是测试物理持久性和因果推理。最后,我们概述了前进的道路:解决持久性的数据驱动记忆问题,并整合因果关系的推理先验。这些步骤对于推动该领域从仅生成视觉上看似合理的视频转向构建稳健、通用的世界模拟器至关重要。