形随动:借助3D代理实现精准一致的视频编辑

发表
Yuhao LiuYuhao Liu 提交
作者: Yuhao LiuYuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau

摘要

深度生成模型领域的最新进展为视频合成解锁了前所未有的机遇。然而,在实际应用中,用户通常寻求能够精确、一致地实现其创意编辑意图的工具。尽管现有方法取得了进展,但确保与用户意图的细粒度对齐仍然是一个开放且具有挑战性的问题。在这项工作中,我们提出了Shape-for-Motion,一个新颖的框架,它引入了3D代理,以实现精确和一致的视频编辑。Shape-for-Motion通过将输入视频中的目标对象转换为时间一致的网格(即3D代理)来实现这一点,从而允许直接在代理上进行编辑,然后将编辑结果推断回视频帧。为了简化编辑过程,我们设计了一种新颖的双向传播策略,允许用户在单个帧的3D网格上进行编辑,然后这些编辑会自动传播到其他帧的3D网格。不同帧的3D网格进一步投影到2D空间,以生成编辑后的几何和纹理渲染,这些渲染作为解耦视频扩散模型的输入,用于生成编辑结果。我们的框架支持视频帧间的各种精确且物理一致的操作,包括姿态编辑、旋转、缩放、平移、纹理修改和对象合成。我们的方法标志着向高质量、可控视频编辑工作流程迈出了关键一步。大量实验证明了我们方法的优越性和有效性。项目页面:https://shapeformotion.github.io/
查看 arXiv 页面查看 PDF

评论

Yuhao LiuYuhao Liu
论文作者
论文提交者

teaser.jpg