⏶21
弗兰卡:用于可扩展视觉表示学习的嵌套式套娃聚类
发表
由
Yuki Asano 提交

作者:
Shashanka Venkataramanan,
Valentinos Pariza, Mohammadreza Salehi,
Lukas Knobel,
Spyros Gidaris,
Elias Ramzi, Andrei Bursuc, Yuki M. Asano

摘要
我们推出Franca(发音为Fran-ka):“自由者”;这是首个完全开源(数据、代码、权重)的视觉基础模型,其性能与最先进的专有模型(如DINOv2、CLIP、SigLIPv2等)相媲美,在许多情况下甚至超越它们。我们的方法基于受Web-SSL启发的透明训练流程,并使用公开可用的数据:ImageNet-21K和ReLAION-2B的一个子集。除了模型发布,我们还解决了SSL聚类方法中的关键局限性。尽管现代模型通过Sinkhorn-Knopp等聚类算法将图像特征分配到大型码本中,但它们未能考虑到聚类语义中固有的模糊性。为了解决这个问题,我们引入了一种基于嵌套式套娃(Matryoshka)表示的参数高效、多头聚类投影器。这种设计在不增加模型大小的情况下,逐步将特征细化为日益精细的聚类,从而实现了性能和内存效率的双重提升。此外,我们提出了一种新颖的位置解耦策略,该策略明确地从密集表示中消除了位置偏差,从而改进了语义内容的编码。这使得在多个下游基准测试中获得了持续的性能提升,证明了更清晰特征空间的实用性。我们的贡献为透明、高性能的视觉模型建立了新标准,并为更可复现和更具泛化能力的AI社区基础模型开辟了道路。代码和模型检查点可在https://github.com/valeoai/Franca 获取。
全新的开源代码、开放权重视觉基础模型,其性能匹敌并超越DINOv2