⏶47
Diffuman4D:基于时空扩散模型从稀疏视图视频合成4D一致人体视图
发表
由
Yudong Jin 提交

作者:
Yudong Jin, Sida Peng, Xuan Wang, Tao Xie, Zhen Xu, Yifan Yang, Yujun Shen, Hujun Bao, Xiaowei Zhou

摘要
本文旨在解决以稀疏视图视频作为输入,对人类进行高保真视图合成的挑战。以往的方法通过利用4D扩散模型生成新视点视频来解决观察不足的问题。然而,这些模型生成的视频往往缺乏时空一致性,从而降低了视图合成的质量。在本文中,我们提出了一种新颖的滑动迭代去噪过程,以增强4D扩散模型的时空一致性。具体来说,我们定义了一个潜在网格,其中每个潜在编码特定视点和时间戳的图像、相机姿态和人体姿态,然后通过滑动窗口沿空间和时间维度交替对潜在网格进行去噪,最后从相应的去噪潜在中解码目标视点的视频。通过迭代滑动,信息在潜在网格中充分流动,使得扩散模型能够获得更大的感受野,从而增强输出的4D一致性,同时保持GPU内存消耗可负担。在DNA-Rendering和ActorsHQ数据集上的实验表明,我们的方法能够合成高质量且一致的新视图视频,并显著优于现有方法。请访问我们的项目页面获取交互式演示和视频结果:https://diffuman4d.github.io/。
Diffuman4D 能够从稀疏视图视频实现高保真自由视点人物表演渲染。