⏶60
矩阵博弈:交互世界基础模型
发表
由
Yifan Zhang 提交

作者:
Yifan Zhang,
Chunli Peng,
Boyang Wang,
Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou



摘要
我们推出 Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。Matrix-Game 采用两阶段流水线进行训练,该流水线首先进行大规模无标注预训练以实现环境理解,随后进行动作标注训练以生成交互式视频。为支持此工作,我们构建了 Matrix-Game-MC,一个全面的 Minecraft 数据集,包含超过 2,700 小时的无标注游戏视频片段以及超过 1,000 小时的高质量标注片段,其中包含细粒度的键盘和鼠标动作标注。我们的模型采用可控的图像到世界生成范式,以参考图像、运动上下文和用户动作为条件。Matrix-Game 拥有超过 170 亿个参数,能够精确控制角色动作和摄像机移动,同时保持高视觉质量和时间连贯性。为了评估性能,我们开发了 GameWorld Score,一个统一的基准,用于衡量 Minecraft 世界生成的视觉质量、时间质量、动作可控性和物理规则理解能力。大量实验表明,Matrix-Game 在所有指标上均持续优于现有的开源 Minecraft 世界模型(包括 Oasis 和 MineWorld),在可控性和物理一致性方面表现出尤其显著的提升。双盲人工评估进一步证实了 Matrix-Game 的卓越性,强调了其在各种游戏场景中生成感知上真实且精确可控视频的能力。为了促进未来在交互式图像到世界生成方面的研究,我们将开源 Matrix-Game 模型权重和 GameWorld Score 基准,地址为 https://github.com/SkyworkAI/Matrix-Game。
Matrix-Game — 一个 17B+ 参数的交互式世界基础模型 🚀。所有模型权重、推理代码和基准测试均已开源。欢迎探索、使用和讨论!😆
🔗 主页: https://matrix-game-homepage.github.io
💻 GitHub: https://github.com/SkyworkAI/Matrix-Game