LoftUp:学习用于视觉基础模型的基于坐标的特征上采样器

发表
Niels RoggeNiels Rogge 提交
作者: Haiwen Huang, Anpei Chen, Volodymyr Havrylov, Andreas Geiger, Dan Zhang

摘要

DINOv2 和 CLIP 等视觉基础模型(VFMs)在各种下游任务上取得了令人印象深刻的结果,但其有限的特征分辨率阻碍了在需要像素级理解的应用中的性能。特征上采样提供了一个有前途的方向来解决这一挑战。在这项工作中,我们确定了增强特征上采样的两个关键因素:上采样器架构和训练目标。对于上采样器架构,我们引入了一种基于坐标的交叉注意力 Transformer,它将高分辨率图像与坐标和低分辨率 VFM 特征相结合,以生成清晰、高质量的特征。对于训练目标,我们提出通过利用类别无关掩码和自蒸馏来构建高分辨率伪真实特征。我们的方法有效地捕捉细粒度细节,并灵活适应各种输入和特征分辨率。通过实验,我们证明了我们的方法在各种下游任务上显著优于现有特征上采样技术。我们的代码已在 https://github.com/andrehuang/loftup 发布。
查看 arXiv 页面查看 PDF

评论

Niels RoggeNiels Rogge
论文提交者

代码: https://github.com/andrehuang/loftup