⏶33
PlayerOne: 自我中心世界模拟器
发表
由
xichen 提交

作者: Yuanpeng Tu, Hao Luo,
Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao

摘要
我们引入了 PlayerOne,这是首个第一人称真实世界模拟器,
它能够促进在生动动态的环境中进行沉浸式、无限制的探索。用户提供第一人称场景图像后,PlayerOne 可以
准确构建相应的世界,并生成与外部摄像机捕获的用户真实场景人体运动严格对齐的
第一人称视角视频。PlayerOne 采用从粗到精的流程进行训练,首先在
大规模第一人称文本-视频对上进行预训练,以实现粗粒度第一人称理解,
然后对通过我们自动构建流程从第一人称-外部视角视频数据集中提取的
同步运动-视频数据进行微调。此外,考虑到不同组件的重要性各异,
我们设计了一种部件解耦运动注入方案,能够精确控制部件级别的运动。
另外,我们设计了一个联合重建框架,该框架逐步建模 4D 场景和视频帧,
确保长视频生成中的场景一致性。实验结果证明了其在精确控制不同人体运动
和对多样化场景进行世界一致性建模方面的强大泛化能力。
它标志着在第一人称真实世界模拟方面的首次尝试,并能为社区深入世界建模
及其多样化应用的新领域铺平道路。
项目页面:https://playerone-hku.github.io/