⏶13
HoloTime: 驯服视频扩散模型用于全景 4D 场景生成
发表
由
Haiyang Zhou 提交
作者:
Haiyang Zhou,
Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan

摘要
扩散模型的快速发展有望彻底改变 VR 和 AR 技术的应用,这些技术通常需要场景级别的 4D 资产来提升用户体验。然而,现有的扩散模型主要专注于对静态 3D 场景或对象级别的动态进行建模,这限制了它们提供真正沉浸式体验的能力。为了解决这个问题,我们提出了 HoloTime,一个集成视频扩散模型的框架,能够从单个提示或参考图像生成全景视频,同时还提供一种 360 度 4D 场景重建方法,可将生成的全景视频无缝转换为 4D 资产,使用户能够获得完全沉浸式的 4D 体验。具体来说,为了驯服视频扩散模型以生成高保真全景视频,我们引入了 360World 数据集,这是首个适用于下游 4D 场景重建任务的全景视频综合集合。利用这个精心策划的数据集,我们提出了全景动画师 (Panoramic Animator),一个两阶段的图像到视频扩散模型,可以将全景图像转换为高质量的全景视频。在此之后,我们提出了全景时空重建 (Panoramic Space-Time Reconstruction),它利用时空深度估计算法将生成的全景视频转换为 4D 点云,从而能够优化整体的 4D Gaussian Splatting 表示,以重建空间和时间一致的 4D 场景。为了验证我们方法的有效性,我们与现有方法进行了对比分析,结果显示其在全景视频生成和 4D 场景重建方面均表现出优越性。这表明我们的方法能够创建更具吸引力和真实感的沉浸式环境,从而提升 VR 和 AR 应用中的用户体验。
我们提出了 HoloTime,这是一个整合了视频扩散模型的框架,能够从单个提示或参考图像生成全景视频,同时结合了一个 360 度 4D 场景重建方法,可将生成的全景视频无缝转换为 4D 资产,为用户带来完全沉浸式的 4D 体验。
📌 项目页面: https://zhouhyocean.github.io/holotime/
📄 论文: https://arxiv.org/pdf/2504.21650
💻 GitHub: https://github.com/PKU-YuanGroup/HoloTime
🤗 模型: https://huggingface.co/Marblueocean/HoloTime