弗兰卡:用于可扩展视觉表示学习的嵌套式套娃聚类

发表
Yuki AsanoYuki Asano 提交
作者: Shashanka VenkataramananShashanka Venkataramanan, Valentinos ParizaValentinos Pariza, Mohammadreza Salehi, Lukas KnobelLukas Knobel, Spyros GidarisSpyros Gidaris, Elias RamziElias Ramzi, Andrei Bursuc, Yuki M. Asano

摘要

我们推出Franca(发音为Fran-ka):“自由者”;这是首个完全开源(数据、代码、权重)的视觉基础模型,其性能与最先进的专有模型(如DINOv2、CLIP、SigLIPv2等)相媲美,在许多情况下甚至超越它们。我们的方法基于受Web-SSL启发的透明训练流程,并使用公开可用的数据:ImageNet-21K和ReLAION-2B的一个子集。除了模型发布,我们还解决了SSL聚类方法中的关键局限性。尽管现代模型通过Sinkhorn-Knopp等聚类算法将图像特征分配到大型码本中,但它们未能考虑到聚类语义中固有的模糊性。为了解决这个问题,我们引入了一种基于嵌套式套娃(Matryoshka)表示的参数高效、多头聚类投影器。这种设计在不增加模型大小的情况下,逐步将特征细化为日益精细的聚类,从而实现了性能和内存效率的双重提升。此外,我们提出了一种新颖的位置解耦策略,该策略明确地从密集表示中消除了位置偏差,从而改进了语义内容的编码。这使得在多个下游基准测试中获得了持续的性能提升,证明了更清晰特征空间的实用性。我们的贡献为透明、高性能的视觉模型建立了新标准,并为更可复现和更具泛化能力的AI社区基础模型开辟了道路。代码和模型检查点可在https://github.com/valeoai/Franca 获取。
查看 arXiv 页面查看 PDF

评论

Yuki AsanoYuki Asano
论文提交者

全新的开源代码、开放权重视觉基础模型,其性能匹敌并超越DINOv2

You7You7
此评论已隐藏。
emilio Frittrangemilio Frittrang