⏶29
ViDAR: 基于视频扩散感知的单目输入4D重建
发表
由
Michal Nazarczuk 提交
作者:
Michal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Zhensong Zhang, Gregory Slabaugh, Eduardo Pérez-Pellitero
摘要
动态新颖视图合成旨在从任意视点生成移动主体的逼真视图。当依赖单目视频时,这项任务尤其具有挑战性,因为将结构从运动中分离出来是一个病态问题,且监督信号稀缺。我们引入了视频扩散感知重建(ViDAR),这是一个新颖的4D重建框架,它利用个性化扩散模型来合成伪多视图监督信号,以训练高斯泼溅表示。通过条件化场景特定特征,ViDAR恢复了细粒度的外观细节,同时减轻了由单目模糊性引入的伪影。为了解决基于扩散的监督在时空上的不一致性,我们提出了一种扩散感知损失函数和一种相机姿态优化策略,使合成视图与底层场景几何结构对齐。在DyCheck(一个具有极端视点变化的挑战性基准)上的实验表明,ViDAR在视觉质量和几何一致性方面均优于所有最先进的基线。我们进一步强调了ViDAR在动态区域上相对于基线的显著改进,并提供了一个新的基准来比较场景中运动丰富部分的重建性能。项目页面:https://vidar-4d.github.io
项目页面:https://vidar-4d.github.io