PlayerOne: 自我中心世界模拟器

发表
xichenxichen 提交
作者: Yuanpeng Tu, Hao Luo, xichenXi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao

摘要

我们引入了 PlayerOne,这是首个第一人称真实世界模拟器, 它能够促进在生动动态的环境中进行沉浸式、无限制的探索。用户提供第一人称场景图像后,PlayerOne 可以 准确构建相应的世界,并生成与外部摄像机捕获的用户真实场景人体运动严格对齐的 第一人称视角视频。PlayerOne 采用从粗到精的流程进行训练,首先在 大规模第一人称文本-视频对上进行预训练,以实现粗粒度第一人称理解, 然后对通过我们自动构建流程从第一人称-外部视角视频数据集中提取的 同步运动-视频数据进行微调。此外,考虑到不同组件的重要性各异, 我们设计了一种部件解耦运动注入方案,能够精确控制部件级别的运动。 另外,我们设计了一个联合重建框架,该框架逐步建模 4D 场景和视频帧, 确保长视频生成中的场景一致性。实验结果证明了其在精确控制不同人体运动 和对多样化场景进行世界一致性建模方面的强大泛化能力。 它标志着在第一人称真实世界模拟方面的首次尝试,并能为社区深入世界建模 及其多样化应用的新领域铺平道路。
查看 arXiv 页面查看 PDF

评论

xichenxichen
论文作者
论文提交者

项目页面:https://playerone-hku.github.io/