⏶21

弗兰卡：用于可扩展视觉表示学习的嵌套式套娃聚类

07月18日发表

07月21日由 Yuki Asano 提交

作者: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano

摘要

我们推出Franca（发音为Fran-ka）：“自由者”；这是首个完全开源（数据、代码、权重）的视觉基础模型，其性能与最先进的专有模型（如DINOv2、CLIP、SigLIPv2等）相媲美，在许多情况下甚至超越它们。我们的方法基于受Web-SSL启发的透明训练流程，并使用公开可用的数据：ImageNet-21K和ReLAION-2B的一个子集。除了模型发布，我们还解决了SSL聚类方法中的关键局限性。尽管现代模型通过Sinkhorn-Knopp等聚类算法将图像特征分配到大型码本中，但它们未能考虑到聚类语义中固有的模糊性。为了解决这个问题，我们引入了一种基于嵌套式套娃（Matryoshka）表示的参数高效、多头聚类投影器。这种设计在不增加模型大小的情况下，逐步将特征细化为日益精细的聚类，从而实现了性能和内存效率的双重提升。此外，我们提出了一种新颖的位置解耦策略，该策略明确地从密集表示中消除了位置偏差，从而改进了语义内容的编码。这使得在多个下游基准测试中获得了持续的性能提升，证明了更清晰特征空间的实用性。我们的贡献为透明、高性能的视觉模型建立了新标准，并为更可复现和更具泛化能力的AI社区基础模型开辟了道路。代码和模型检查点可在https://github.com/valeoai/Franca 获取。

查看 arXiv 页面查看 PDF

Yuki Asano

论文提交者

全新的开源代码、开放权重视觉基础模型，其性能匹敌并超越DINOv2

You7

此评论已隐藏。

emilio Frittrang

酷