⏶18
高斯变异场扩散用于高保真视频到4D合成
发表
由
Bowen Zhang 提交
作者:
Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
摘要
在本文中,我们提出了一种新颖的视频到 4D 生成框架,该框架可以从单个视频输入创建高质量的动态 3D 内容。直接的 4D 扩散建模极具挑战性,原因在于数据构建成本高昂以及联合表示 3D 形状、外观和运动的高维特性。我们通过引入一个直接的 4DMesh-to-GS 变异场 VAE 来解决这些挑战,该 VAE 直接从 3D 动画数据中编码规范高斯散射(GS)及其时间变化,而无需每个实例拟合,并将高维动画压缩到紧凑的潜在空间中。在此高效表示的基础上,我们训练了一个高斯变异场扩散模型,该模型具有时间感知的扩散变换器,并以输入视频和规范 GS 为条件。我们的模型在精心策划的 Objaverse 数据集中的可动画 3D 对象上进行训练,与现有方法相比,展示了卓越的生成质量。尽管仅在合成数据上进行训练,但它对野外视频输入也表现出显著的泛化能力,为生成高质量动画 3D 内容铺平了道路。项目页面:https://gvfdiffusion.github.io/。
在本文中,我们引入了一种新颖的框架来解决具有挑战性的4D生成建模任务。为了高效构建大规模训练数据集并降低扩散模型的建模难度,我们首先引入了一个直接的4DMesh-to-GS变异场VAE,它能够高效地将复杂的运动信息压缩到紧凑的潜在空间中,而无需昂贵的逐实例拟合。然后,一个高斯变异场扩散模型,它根据输入视频和规范的3DGS生成高质量的动态变异场。通过将4D生成分解为规范的3DGS生成和高斯变异场建模,我们的方法显著降低了计算复杂性,同时保持了高保真度。定量和定性评估表明,我们的方法始终优于现有方法。此外,我们的模型在野外视频输入方面表现出卓越的泛化能力,推动了高质量动画3D内容生成技术的发展。