⏶225
DINOv3
发表
由
Niels Rogge 提交

作者: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
摘要
自监督学习有望消除手动数据标注的需要,使模型能够轻松扩展到海量数据集和更大的架构。通过不针对特定任务或领域进行定制,这种训练范式有潜力使用单一算法从不同来源(从自然图像到航空图像)学习视觉表示。本技术报告介绍了 DINOv3,这是通过利用简单而有效的策略来实现这一愿景的一个重要里程碑。首先,我们通过精心的数据准备、设计和优化,利用了扩展数据集和模型规模的优势。其次,我们引入了一种名为 Gram anchoring 的新方法,它有效地解决了长期训练计划中密集特征图降级的已知但未解决的问题。最后,我们应用了事后策略,进一步增强了模型在分辨率、模型大小和与文本对齐方面的灵活性。因此,我们提出了一个多功能视觉基础模型,它在广泛的设置中超越了专业化的最先进技术,而无需进行微调。DINOv3 生成高质量的密集特征,在各种视觉任务上取得了出色的性能,显著超越了以前的自监督和弱监督基础模型。我们还分享了 DINOv3 视觉模型套件,旨在通过为各种资源限制和部署场景提供可扩展的解决方案,提升广泛任务和数据上的最先进水平。
代码: https://github.com/facebookresearch/dinov3
Transformers 实现: https://huggingface.co/docs/transformers/main/en/model_doc/dinov3