⏶22
MetaCLIP 2:全球扩展秘诀
发表
由
Niels Rogge 提交

作者:
Yung-Sung Chuang,
Yang Li,
Dong Wang, Ching-Feng Yeh, Kehan Lyu, Ramya Raghavendra, James Glass, Lifei Huang, Jason Weston, Luke Zettlemoyer, Xinlei Chen, Zhuang Liu, Saining Xie, Wen-tau Yih,
Shang-Wen Li, Hu Xu

摘要
对比语言-图像预训练 (CLIP) 是一种流行的基础模型,支持从零样本分类、检索到多模态大型语言模型 (MLLMs) 的编码器功能。尽管CLIP已成功地在来自英语世界的十亿级图像-文本对上进行训练,但将CLIP的训练进一步扩展到从全球网络数据中学习仍然具有挑战性:(1) 缺乏处理非英语世界数据点的数据策展方法;(2) 现有多语言CLIP的英语性能不如其纯英语版本,即在大型语言模型 (LLMs) 中常见的“多语言诅咒”。在本文中,我们提出了 MetaCLIP 2,这是首个从零开始,在全球网络规模的图像-文本对上训练CLIP的方法。为了推广我们的发现,我们进行了严格的消融实验,仅对解决上述挑战进行必要的最小改动,并提出了一种能够从英语和非英语世界数据中实现互利的方法。在零样本ImageNet分类中,MetaCLIP 2 ViT-H/14 比其纯英语版本高出0.8%,比mSigLIP高出0.7%,并且在多语言基准测试中,令人惊讶地在没有系统级混杂因素(例如,翻译、定制架构更改)的情况下创下了新的最先进水平,例如在CVQA上达到57.4%,Babel-ImageNet上达到50.2%,以及在图像到文本检索的XM3600上达到64.3%。
代码: https://github.com/facebookresearch/MetaCLIP