MIEB:大规模图像嵌入基准

发表
Isaac ChungIsaac Chung 提交
作者: chenghao xiaoChenghao Xiao, Isaac ChungIsaac Chung, Imene KerbouaImene Kerboua, Jamie Stirling, Xin ZhangXin Zhang, Márton Kardos, Solomatin RomanRoman Solomatin, Noura Al Moubayed, Kenneth C. EnevoldsenKenneth Enevoldsen, Niklas Muennighoff

摘要

图像表征的评估通常采用分散且特定于任务的协议,这导致对模型能力的理解较为零散。例如,擅长图像聚类的图像嵌入模型是否同样擅长根据一段文本检索相关图像,这一点尚不明确。我们推出了大规模图像嵌入基准(MIEB),旨在迄今为止最广泛的范围内评估图像和图像-文本嵌入模型的性能。MIEB涵盖38种语言,包含130个独立任务,我们将这些任务归纳为8个高级类别。我们在该基准上对50个模型进行了评测,结果表明,没有单一方法能在所有任务类别中占据绝对优势。我们揭示了先进视觉模型的一些隐藏能力,例如它们能够准确地视觉表征文本,但也发现它们在交错编码以及在存在混淆因素时匹配图像和文本方面仍存在局限性。此外,我们还发现视觉编码器在MIEB上的性能与其在多模态大型语言模型中的应用性能高度相关。我们的代码、数据集和排行榜已在https://github.com/embeddings-benchmark/mteb 公开。
查看 arXiv 页面查看 PDF

评论

Kenneth C. EnevoldsenKenneth C. Enevoldsen
论文作者

在此处查看排行榜:https://huggingface.co/spaces/mteb/leaderboard