BlenderFusion:基于3D的视觉编辑与生成式合成

发表
Jiacheng ChenJiacheng Chen 提交
作者: Jiacheng ChenJiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo

摘要

我们提出了BlenderFusion,一个生成式视觉合成框架,它通过重新组合物体、相机和背景来合成新场景。它遵循分层-编辑-合成的流水线:(i)将视觉输入分割并转换为可编辑的3D实体(分层),(ii)在Blender中以3D为基础的控制进行编辑(编辑),以及(iii)使用生成式合成器将它们融合到一个连贯的场景中(合成)。我们的生成式合成器扩展了一个预训练的扩散模型,以并行处理原始(源)和编辑后(目标)场景。它通过两种关键的训练策略在视频帧上进行微调:(i)源遮蔽,实现背景替换等灵活修改;(ii)模拟物体抖动,有助于对物体和相机进行解耦控制。BlenderFusion在复杂的合成场景编辑任务中显著优于现有方法。
查看 arXiv 页面查看 PDF

评论

Jiacheng ChenJiacheng Chen
论文作者
论文提交者

尽管目前最先进的生成模型能够根据文本提示生成令人印象深刻的视觉效果或执行简单的编辑,但它们在精确编辑输入视觉的关键元素时,往往难以准确理解3D和几何结构。

我们引入了 BlenderFusion,这是一个基于3D的视觉合成框架,提供了对各种视觉元素(包括物体、相机和背景)的精确控制和合成。

其核心在于结合了两者的优点:基于3D的编辑和生成式合成。我们不单纯依赖文本提示,而是利用图形引擎(Blender)进行精确的几何控制和灵活操作。然后,我们采用扩散模型作为生成式合成器,以合成逼真的最终结果。

项目页面https://blenderfusion.github.io/