3D-Fixup: 利用3D先验知识提升照片编辑

发表
Yen-Chi ChengYen-Chi Cheng 提交
作者: Yen-Chi ChengYen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao

摘要

尽管扩散模型在建模图像先验方面取得了显著进展,但 3D 感知图像编辑仍然具有挑战性,部分原因在于物体仅通过单张图像指定。为了应对这一挑战,我们提出了 3D-Fixup,这是一个由学习到的 3D 先验引导的二维图像编辑新框架。该框架支持诸如物体平移和 3D 旋转等复杂的编辑场景。为了实现这一点,我们采用了一种基于训练的方法,该方法利用了扩散模型的生成能力。由于视频数据自然地编码了现实世界的物理动态,我们转向利用视频数据来生成训练数据对,即源帧和目标帧。与其仅仅依赖于一个训练好的模型来推断源帧和目标帧之间的变换,我们融入了来自 Image-to-3D 模型的 3D 引导,该模型通过将二维信息显式投影到三维空间中来弥合这项具有挑战性的任务。我们设计了一个数据生成管线,以确保在整个训练过程中获得高质量的 3D 引导。结果表明,通过整合这些 3D 先验,3D-Fixup 有效地支持复杂且保持身份一致的 3D 感知编辑,实现了高质量的结果,并推动了扩散模型在逼真图像操作中的应用。代码可在 https://3dfixup.github.io/ 找到。
查看 arXiv 页面查看 PDF

评论

Yen-Chi ChengYen-Chi Cheng
论文作者
论文提交者

项目主页: https://3dfixup.github.io/