HunyuanWorld 1.0:从文字或像素生成沉浸式、可探索和交互式的3D世界

发表
Tengfei WangTengfei Wang 提交
作者: HunyuanWorld Team, Zhenwei WANG (Zavier)Zhenwei Wang, Yuhao LiuYuhao Liu, Junta Wu, Zixiao GuZixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo

摘要

从文本或图像创建沉浸式和可玩的 3D 世界仍然是计算机视觉和图形学中的一项基本挑战。现有的世界生成方法通常分为两类:基于视频的方法,它们提供丰富的多样性,但缺乏 3D 一致性和渲染效率;以及基于 3D 的方法,它们提供几何一致性,但在有限的训练数据和内存效率低的表示方面存在困难。为了解决这些限制,我们提出了 HunyuanWorld 1.0,这是一个新颖的框架,它结合了两者的优点,可以从文本和图像条件生成沉浸式、可探索和交互式的 3D 场景。我们的方法具有三个关键优势:1)通过全景世界代理提供 360{\deg} 沉浸式体验;2)网格导出功能,可与现有的计算机图形管道无缝兼容;3)解耦的对象表示,可增强交互性。我们框架的核心是语义分层的 3D 网格表示,它利用全景图像作为 360{\deg} 世界代理来进行语义感知的世界分解和重建,从而实现多样化的 3D 世界生成。广泛的实验表明,我们的方法在生成连贯、可探索和交互式 3D 世界方面实现了最先进的性能,同时可以在虚拟现实、物理模拟、游戏开发和交互式内容创建中实现各种应用。
查看 arXiv 页面查看 PDF

评论

Tengfei WangTengfei Wang
论文提交者

app.png

AYDIN KULANAYDIN KULAN

你有没有想过设计一个永远玩不完的游戏?

Jonathan KorstadJonathan Korstad

挺酷的,最终输出的文件类型是什么样的?它们本质上可以导入任何3D引擎并从那里进行编辑吗?

Kye GomezKye Gomez

同样好奇