用于鲁棒比较开放基础语言-视觉模型和数据集的缩放定律

发表
Jenia JitsevJenia Jitsev 提交
作者: Marianna NezhurinaMarianna Nezhurina, Tomer Porian, Giovanni Pucceti, Tommie Kerssies, Romain Beaumont, Mehdi Cherti, Jenia Jitsev

摘要

在可迁移学习的研究中,各种重要的基础模型都获得了缩放定律,以预测它们在更大规模下的属性和性能。我们在此展示缩放定律的推导如何也能用于模型和数据集的比较,从而决定预训练应首选哪种程序。我们首次针对两种重要的语言-视觉学习程序(CLIP 和 MaMMUT)推导了基于跨广泛模型和样本规模的密集测量的完整缩放定律,它们分别仅使用对比损失或结合对比和标题生成文本损失。为了确保对保留点的足够预测精度,我们使用推导出的缩放定律来比较这两种模型,获得了 MaMMUT 随着规模的增强改进和比标准 CLIP 更好的样本效率的证据。为了加强比较的有效性,我们展示了各种下游任务(分类、检索和分割)以及不同开放数据集(DataComp、DFN 和 Re-LAION)的缩放定律,并始终观察到相同的趋势。我们表明,在以恒定学习率调度推导缩放定律时也可以进行比较,从而降低计算成本。因此,缩放定律的准确推导提供了在不同规模范围内进行模型和数据集比较的手段,避免了仅基于单一参考规模测量所导致的误导性结论,为开放基础模型及其创建数据集的系统比较和改进铺平了道路。我们发布了所有预训练模型及其中间检查点,包括 openMaMMUT-L/14,该模型在 DataComp-1.4B 的 12.8B 个样本上进行训练,实现了 80.3% 的零样本 ImageNet-1k 准确率。论文中复现实验的代码和原始实验数据可在 https://github.com/LAION-AI/scaling-laws-for-comparison 找到。
查看 arXiv 页面查看 PDF

评论

Jenia JitsevJenia Jitsev
论文提交者

首次使用缩放法则来稳健地比较开放基础语言-视觉模型和数据集,以openCLIP和openMammut等重要模型,以及DataComp、DFN和Re-LAION等开放数据集为例。基于缩放法则的比较后,openMammut L-14在DataComp-1.4B的128亿样本上进行训练,实现了80.34%的零样本ImageNet-1k分类准确率,作为完全开源模型,其性能超越或匹配了相同计算级别的其他开放权重模型。