⏶5
动态视图合成作为一个逆问题
发表
由
Hidir Yesiltepe 提交
作者:
Hidir Yesiltepe,
Pinar Yanardag
摘要
在这项工作中,我们将单目视频的动态视角合成作为一个免训练设置下的逆问题来处理。通过重新设计预训练视频扩散模型的噪声初始化阶段,我们实现了无需任何权重更新或辅助模块的高保真动态视角合成。我们首先识别出源自零终点信噪比(SNR)调度的确定性反演的一个根本性障碍,并通过引入一种新颖的噪声表示(称为K阶递归噪声表示)来解决它。我们推导出了这种表示的闭式表达式,实现了VAE编码的潜在表示与DDIM反演的潜在表示之间的精确高效对齐。为了合成摄像机运动引起的新可见区域,我们引入了随机潜在调制,它在潜在空间上执行可见性感知采样以补全被遮挡区域。全面实验表明,通过在噪声初始化阶段进行结构化潜在操作,可以有效实现动态视角合成。
在这项工作中,我们将单目视频的动态视图合成视为一个在免训练设置下的逆问题。通过重新设计预训练视频扩散模型的噪声初始化阶段,我们实现了无需任何权重更新或辅助模块的高保真动态视图合成。我们首先识别出源于零终端信噪比(SNR)调度的确定性反演的一个根本障碍,并通过引入一种新颖的噪声表示(称为K阶递归噪声表示)来解决它。我们推导了这种表示的闭合形式表达式,从而实现了VAE编码和DDIM反演的潜在变量之间的精确高效对齐。为了合成由相机运动产生的新可见区域,我们引入了随机潜在调制,它在潜在空间上执行可见性感知采样以补全被遮挡区域。综合实验表明,动态视图合成可以通过噪声初始化阶段中的结构化潜在操作有效执行。