⏶10
In-2-4D:从两张单视角图像到4D生成的中间帧生成
发表
由
Sauradip Nag 提交
作者: Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri
摘要
我们提出了一个新的问题 In-2-4D,用于从极简输入设置(两张捕捉物体在两种不同运动状态下的单视图图像)生成 4D(即 3D + 运动)中间帧。给定两张代表运动物体起始和结束状态的图像,我们的目标是生成并重建 4D 运动。我们利用视频插值模型来预测运动,但大的帧间运动可能会导致模糊的解释。为了克服这个问题,我们采用分层方法来识别在视觉上接近输入状态并显示显著运动的关键帧,然后在它们之间生成平滑的片段。对于每个片段,我们使用高斯 Splatting 构建关键帧的 3D 表示。片段内的时间帧引导运动,使其能够通过形变场转换为动态高斯分布。为了提高时间一致性并改进 3D 运动,我们将多视图扩散的自注意力扩展到时间步长,并应用刚性变换正则化。最后,我们通过插值边界形变场并将它们优化以与引导视频对齐,来合并独立生成的 3D 运动片段,从而确保平滑且无闪烁的过渡。通过广泛的定性和定量实验以及用户研究,我们展示了我们的方法及其组件的有效性。项目主页可在 https://in-2-4d.github.io/ 访问。
从两个单目图像进行4D插帧