几何强制:融合视频扩散与3D表示,实现一致的世界建模

发表
WuWu 提交
作者: Haoyu wuHaoyu Wu, WuDiankun Wu, Tianyu HeTianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian

摘要

视频本质上是动态 3D 世界的 2D 投影。然而,我们的分析表明,仅通过原始视频数据训练的视频扩散模型(video diffusion models)通常无法在其学习到的表示中捕获有意义的几何感知结构。为了弥合视频扩散模型与物理世界潜在 3D 本质之间的鸿沟,我们提出了 Geometry Forcing,这是一种简单而有效的方法,鼓励视频扩散模型内化潜在的 3D 表示。我们的关键见解是通过将模型的中间表示与预训练几何基础模型的特征对齐,从而引导它们形成几何感知结构。为此,我们引入了两个互补的对齐目标:角度对齐(Angular Alignment),它通过余弦相似度强制执行方向一致性;以及尺度对齐(Scale Alignment),它通过从归一化扩散表示中回归非归一化几何特征来保留尺度相关信息。我们在相机视角条件和动作条件视频生成任务上评估了 Geometry Forcing。实验结果表明,我们的方法相比基线方法显著提升了视觉质量和 3D 一致性。项目页面:https://GeometryForcing.github.io
查看 arXiv 页面查看 PDF

评论

WuWu
论文作者
论文提交者

项目页面: https://geometryforcing.github.io/

JingyeChen22JingyeChen22

我见过最酷的论文