矩阵博弈:交互世界基础模型

发表
Yifan ZhangYifan Zhang 提交
作者: Yifan ZhangYifan Zhang, CHUNLI PENGChunli Peng, Boyang WangBoyang Wang, Puyi WangPuyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou

摘要

我们推出 Matrix-Game,一个用于可控游戏世界生成的交互式世界基础模型。Matrix-Game 采用两阶段流水线进行训练,该流水线首先进行大规模无标注预训练以实现环境理解,随后进行动作标注训练以生成交互式视频。为支持此工作,我们构建了 Matrix-Game-MC,一个全面的 Minecraft 数据集,包含超过 2,700 小时的无标注游戏视频片段以及超过 1,000 小时的高质量标注片段,其中包含细粒度的键盘和鼠标动作标注。我们的模型采用可控的图像到世界生成范式,以参考图像、运动上下文和用户动作为条件。Matrix-Game 拥有超过 170 亿个参数,能够精确控制角色动作和摄像机移动,同时保持高视觉质量和时间连贯性。为了评估性能,我们开发了 GameWorld Score,一个统一的基准,用于衡量 Minecraft 世界生成的视觉质量、时间质量、动作可控性和物理规则理解能力。大量实验表明,Matrix-Game 在所有指标上均持续优于现有的开源 Minecraft 世界模型(包括 Oasis 和 MineWorld),在可控性和物理一致性方面表现出尤其显著的提升。双盲人工评估进一步证实了 Matrix-Game 的卓越性,强调了其在各种游戏场景中生成感知上真实且精确可控视频的能力。为了促进未来在交互式图像到世界生成方面的研究,我们将开源 Matrix-Game 模型权重和 GameWorld Score 基准,地址为 https://github.com/SkyworkAI/Matrix-Game
查看 arXiv 页面查看 PDF

评论

Yifan ZhangYifan Zhang
论文作者
论文提交者

Matrix-Game — 一个 17B+ 参数的交互式世界基础模型 🚀。所有模型权重、推理代码和基准测试均已开源。欢迎探索、使用和讨论!😆

🔗 主页: https://matrix-game-homepage.github.io

💻 GitHub: https://github.com/SkyworkAI/Matrix-Game

Jesse AltonJesse Alton

太棒了!如果能集成一些开放的互操作性协议,比如OMI(开放元宇宙互操作性)扩展,那就太酷了。还有一个名为 omi_personality 的,可能对 v2 很有用。祝好!