UFM:通向结合光流的统一稠密对应的一条简单路径

发表
Nikhil KeethaNikhil Keetha 提交
作者: Yuchen Zhang, Nikhil Keetha, Chenwei Lyu, Bhuvan Jhamb, Yutian Chen, Yuheng Qiu, Jay Karhade, Shreyas Jha, Yaoyu Hu, Deva Ramanan, Sebastian Scherer, Wenshan Wang

摘要

密集图像对应是许多应用的核心,例如视觉里程计、3D重建、对象关联和重识别。历史上,尽管在两幅图像之间匹配内容的目标相同,但密集对应问题在宽基线场景和光流估计中是分开处理的。在本文中,我们开发了一种统一流与匹配模型(UFM),它在统一数据上训练,用于源图像和目标图像中同时可见的像素。UFM采用一种简单通用的Transformer架构,直接回归(u,v)流。与先前工作中典型的从粗到精的成本体相比,它更容易训练,并且对于大流量的准确性更高。UFM比最先进的光流方法(Unimatch)准确率高28%,同时比密集宽基线匹配器(RoMa)错误率低62%,速度快6.7倍。UFM首次证明了统一训练在两个领域都能超越专业方法。这一结果实现了快速、通用的对应,并为多模态、长距离和实时对应任务开辟了新方向。
查看 arXiv 页面查看 PDF
UFM:通向结合光流的统一稠密对应的一条简单路径

评论

Nikhil KeethaNikhil Keetha
论文提交者

UFM 是一个简单、端到端训练的Transformer模型,它直接回归像素位移图像(光流)和共可见性,可应用于光流和宽基线匹配任务,具有高精度和高效率。

项目页面: https://uniflowmatch.github.io/

Hugging Face 互动演示: https://huggingface.co/spaces/infinity1096/UFM