⏶39
MineWorld:一个实时和开源的交互式世界模型,基于 Minecraft
04月11日发表
04月14日由
YSH 提交

作者: Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian
摘要
世界建模是使智能体能够有效与人类互动并在动态环境中操作的一项至关重要的任务。在这项工作中,我们提出了 MineWorld,一个基于 Minecraft 的实时交互世界模型,Minecraft 是一款开放式沙盒游戏,它已被用作世界建模的通用测试平台。MineWorld 由视觉-动作自回归 Transformer 驱动,它将配对的游戏场景和相应的动作作为输入,并生成遵循这些动作的后续新场景。具体来说,通过使用图像分词器和动作分词器分别将视觉游戏场景和动作转换为离散的 token id,我们将模型输入构建为两种 id 交错的串联。然后,该模型通过下一个 token 预测进行训练,以同时学习游戏状态的丰富表示以及状态和动作之间的条件。在推理中,我们开发了一种新颖的并行解码算法,该算法同时预测每帧中的空间冗余 token,使不同规模的模型能够生成每秒 4 到 7 帧,并实现与游戏玩家的实时交互。在评估中,我们提出了新的指标,不仅评估视觉质量,还评估生成新场景时的动作遵循能力,这对于世界模型至关重要。我们全面的评估表明了 MineWorld 的有效性,显著优于最先进的开源基于扩散的世界模型。代码和模型已发布。
代码: https://github.com/microsoft/MineWorld