π^3:可扩展的排列等变视觉几何学习

发表
Tong HeTong He 提交
作者: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong HeTong He

摘要

我们介绍了 pi^3,一个前馈神经网络,它为视觉几何重建提供了一种新方法,打破了对传统固定参考视图的依赖。以往的方法通常将其重建锚定于一个指定的视点,这是一种归纳偏置,如果参考视点不佳,可能会导致不稳定和失败。相比之下,pi^3 采用完全置换等变架构,无需任何参考框架即可预测仿射不变的相机姿态和尺度不变的局部点图。这种设计使我们的模型对输入顺序具有内在的鲁棒性,并且高度可扩展。这些优势使我们这种简单且无偏置的方法能够在包括相机姿态估计、单目/视频深度估计和密集点图重建在内的广泛任务上达到最先进的性能。代码和模型已公开提供。
查看 arXiv 页面查看 PDF

评论

Tong HeTong He
论文作者
论文提交者

代码可用:https://github.com/yyfz/Pi3

Huggingface演示可用:https://huggingface.co/spaces/yyfz233/Pi3

项目页面可用:https://yyfz.github.io/pi3/