⏶27
最佳数据混合的缩放法则
发表
由
Mustafa Shukor 提交
作者: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin
摘要
大型基础模型通常在来自多个领域的数据上进行训练,其中数据混合——每个领域使用的数据比例——在模型性能中起着关键作用。选择这种混合的标准方法依赖于试错法,这对于大规模预训练来说变得不切实际。我们提出了一种系统的方法,利用缩放定律为任何目标领域确定最佳数据混合。我们的方法准确预测了大小为N、用D个标记和特定领域权重向量h训练的模型的损失。我们通过展示这些缩放定律在三种不同且大规模的设置中的预测能力来验证其普遍性:大型语言模型(LLM)、原生多模态模型(NMM)和大型视觉模型(LVM)预训练。我们进一步表明,这些缩放定律可以外推到新的数据混合和跨尺度:它们的参数可以通过少量小规模训练运行准确估计,并用于估计更大规模和未见领域权重下的性能。缩放定律允许在给定训练预算(N,D)下推导出任何目标领域的最佳领域权重,为昂贵的试错法提供了一个有原则的替代方案。
我们提出了新的扩展定律,用于预测预训练LLM、原生多模态模型和大型视觉编码器的最佳数据混合。
只需进行小规模实验,我们就能推断出大规模实验的结果。
这些定律允许:
(1) 在任何训练之前,给定模型大小N、数据集大小T和训练数据混合h(这里指多模态数据域的混合),预测模型性能
(2) 在给定FLOPs预算(N, D)的情况下,预测最佳数据混合
论文:https://arxiv.org/abs/2507.09404