UniGeo:控制视频扩散模型用于统一一致的几何估计

发表
zehuan-huangzehuan-huang 提交
作者: Yang-Tian Sun, Xin Yu, Zehuan Huang, Yi-Hua Huang, Yuan-Chen Guo, Ziyi Yang, Yan-Pei Cao, Xiaojuan Qi

摘要

近年来,利用扩散模型先验辅助单目几何估计(例如深度和法线)的方法因其强大的泛化能力而受到广泛关注。然而,大多数现有工作侧重于估计单个视频帧在相机坐标系内的几何属性,忽略了扩散模型确定帧间对应关系固有的能力。在这项工作中,我们证明了通过适当的设计和微调,视频生成模型固有的时序一致性可以有效地用于一致的几何估计。具体来说,我们:1)选择全局坐标系中与视频帧具有相同对应关系的几何属性作为预测目标;2)通过重用位置编码引入一种新颖高效的条件化方法;3)通过对具有相同对应关系的多个几何属性进行联合训练来提高性能。我们的结果在预测视频中的全局几何属性方面取得了卓越的性能,并且可以直接应用于重建任务。即使仅在静态视频数据上进行训练,我们的方法也展现出泛化到动态视频场景的潜力。
查看 arXiv 页面查看 PDF

评论

zehuan-huangzehuan-huang
论文提交者

UniGeo 利用视频扩散模型联合估计几何属性——例如表面法线和坐标——无论是从多视角图像还是视频序列中。

项目页面:https://sunyangtian.github.io/UniGeo-web/

代码:https://github.com/SunYangtian/UniGeo

此外,仓库中还发布了一个用于几何估计和评估的统一框架,为各种数据集和方法提供了便利的接口。通过对齐输出和评估脚本,它有助于支持与 3r 系列(如 Dust3r)进行公平比较。