⏶22
矩阵游戏2.0:一个开源、实时和流媒体的交互式世界模型
发表
由
taesiri 提交

作者: Xianglong He, Chunli Peng, Zexiang Liu, Boyang Wang, Yifan Zhang, Qi Cui, Fei Kang, Biao Jiang, Mengyin An, Yangyang Ren, Baixin Xu, Hao-Xiang Guo, Kaixiong Gong, Cyrus Wu, Wei Li, Xuchen Song, Yang Liu, Eric Li, Yahui Zhou
摘要
互动视频生成领域的最新进展已经证明了扩散模型作为世界模型的潜力,它能够捕捉复杂的物理动力学和互动行为。然而,现有的互动世界模型依赖于双向注意力和漫长的推理步骤,这严重限制了实时性能。因此,它们难以模拟真实世界的动态,在真实世界中,结果必须根据历史背景和当前行动即时更新。为了解决这个问题,我们提出了Matrix-Game 2.0,一个通过几步自回归扩散即时生成长视频的互动世界模型。我们的框架由三个关键组件组成:(1)一个可扩展的数据生产管道,用于虚幻引擎和GTA5环境,以有效地生产大量(约1200小时)具有多样化互动标注的视频数据;(2)一个动作注入模块,能够将帧级鼠标和键盘输入作为互动条件;(3)基于因果架构的少步蒸馏,用于实时和流媒体视频生成。Matrix Game 2.0能够以25 FPS的超快速度在不同场景中生成高质量的分钟级视频。我们开源了模型权重和代码库,以推动互动世界建模的研究。
> 交互式视频生成领域的最新进展表明,扩散模型通过捕捉复杂的物理动力学和交互行为,有潜力成为世界模型。然而,现有的交互式世界模型依赖于双向注意力和冗长的推理步骤,严重限制了实时性能。因此,它们难以模拟真实世界的动态,其中结果必须根据历史背景和当前动作即时更新。为了解决这个问题,我们提出了 Matrix-Game 2.0,这是一种交互式世界模型,通过少步自回归扩散即时生成长视频。我们的框架包含三个关键组件:(1)一个可扩展的数据生产管道,用于虚幻引擎和 GTA5 环境,以有效生产海量(约 1200 小时)具有多样化交互注释的视频数据;(2)一个动作注入模块,使帧级鼠标和键盘输入作为交互条件;(3)一个基于因果架构的少步蒸馏,用于实时和流式视频生成。Matrix Game 2.0 可以以 25 FPS 的超快速度在不同场景中生成高质量的分钟级视频。我们开源了模型权重和代码库,以推进交互式世界建模的研究。