DataDecide: 如何通过小型实验预测最佳预训练数据

发表
Ian MagnussonIan Magnusson 提交
作者: Ian Magnusson, Tai NguyenNguyen Tai, Ben Bogin, David HeinemanDavid Heineman, Jena D. Hwang, Luca Soldaini, Akshita BhagiaAkshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge

摘要

由于大型语言模型在不同数据集上进行预训练的成本很高,因此使用较小规模的实验来决定数据对于降低成本至关重要。哪些基准和从小规模观察到的性能中做出决策的方法最准确地预测产生最佳大型模型的数据集?为了支持对这个问题的开放探索,我们在 DataDecide 中发布了模型、数据和评估——这是最广泛的开放模型套件,涵盖数据和规模的差异。我们对 25 个语料库进行了受控预训练实验,这些语料库在来源、去重和过滤方面有所不同,最多达 1000 亿个 token,模型大小最多达 10 亿个参数,以及 3 个随机种子。我们发现,在单一小规模(例如,1.5 亿个参数)下模型的排名是预测我们更大目标规模(10 亿)下最佳模型的有力基线(约 80% 的比较是正确的)。在 8 个基线中,没有缩放定律方法超过单规模预测的计算决策前沿,但 DataDecide 可以衡量未来缩放定律的改进。我们还发现,在小型实验中使用连续似然度量作为代理,使得包括 MMLU、ARC、HellaSwag、MBPP 和 HumanEval 在内的基准在目标 1B 规模下具有 >80% 的可预测性,而计算量仅为 0.01%。
查看 arXiv 页面查看 PDF
DataDecide: 如何通过小型实验预测最佳预训练数据

评论

Ian MagnussonIan Magnusson
论文提交者

博客

在每个 AI 实验室的幕后,都会创建和实验许多小型模型和预训练数据集,作为开发其语言模型过程的一部分。这些模型和数据集如果公开,可以为重要问题提供丰富的见解,例如:开发人员如何决定使用哪个数据集来预训练他们的模型,或者在哪些基准上进行爬坡?

作为 Ai2 对开放性的承诺的一部分,并为了增强对这些问题的开放探索,今天我们发布 DataDecide——一套我们在 25 个语料库上预训练的模型套件,这些语料库具有不同的来源、去重和过滤,最多 1000 亿个 tokens,超过 14 种不同的模型尺寸,范围从 400 万参数到 10 亿参数(总共超过 3 万个模型检查点)。我们评估了所有模型在一套 10 个下游任务中的表现,并计算出我们可以使用小型模型多准确地预测一个预训练语料库将比另一个语料库为我们最大的模型带来更好的性能。我们的结论就用于做出决策的最佳和最具成本效益的基准、预测方法和指标提供了建议。