⏶88
CLIMB: 基于聚类的迭代数据混合自举法用于语言模型预训练
发表
由
Shizhe Diao 提交
作者:
Shizhe Diao, Yu Yang, Yonggan Fu, Xin Dong, Dan Su, Markus Kliegl, Zijia Chen, Peter Belcak, Yoshi Suhara, Hongxu Yin, Mostofa Patwary, Yingyan, Lin, Jan Kautz,
Pavlo Molchanov

摘要
预训练数据集通常从网络内容中收集,并且缺乏固有的领域划分。例如,像 Common Crawl 这样广泛使用的数据集不包含明确的领域标签,而手动管理像 The Pile 这样的标记数据集则非常耗费人力。因此,尽管优化预训练数据混合对预训练性能有显著益处,但确定最佳的预训练数据混合仍然是一个具有挑战性的问题。为了应对这些挑战,我们提出了基于聚类的迭代数据混合引导(CLIMB),这是一个自动化框架,可以在预训练环境中发现、评估和改进数据混合。具体而言,CLIMB 在语义空间中嵌入和聚类大规模数据集,然后使用较小的代理模型和预测器迭代搜索最佳混合。当使用这种混合在 4000 亿个 token 上持续训练时,我们的 10 亿参数模型比最先进的 Llama-3.2-1B 高出 2.0%。此外,我们观察到,针对特定领域(例如,社会科学)进行优化,比随机抽样提高了 5%。最后,我们推出了 ClimbLab,这是一个经过过滤的 1.2 万亿 token 语料库,包含 20 个集群,作为一个研究平台,以及 ClimbMix,这是一个紧凑但功能强大的 4000 亿 token 数据集,专为高效预训练而设计,在相同的 token 预算下提供卓越的性能。我们分析了最终的数据混合,阐明了最佳数据混合的特征。我们的数据可在以下网址获取:https://research.nvidia.com/labs/lpr/climb/
预训练数据集通常从网络内容中收集,缺乏固有的领域划分。 例如,像 Common Crawl 这样广泛使用的数据集不包含明确的领域标签,而手动策划像 The Pile 这样的标记数据集则劳动强度大。 因此,尽管预训练性能有显著的好处,但识别最佳的预训练数据混合仍然是一个具有挑战性的问题。 为了应对这些挑战,我们提出了基于聚类的迭代数据混合引导 (CLIMB),这是一个自动化框架,可以在预训练环境中发现、评估和改进数据混合。 具体而言,CLIMB 在语义空间中嵌入和聚类大规模数据集,然后使用较小的代理模型和预测器迭代搜索最佳混合。 当使用这种混合连续训练 400B tokens 时,我们的 1B 模型超过了最先进的 Llama-3.2-1B 2.0%。 此外,我们观察到,针对特定领域(例如,社会科学)进行优化,比随机抽样提高了 5%。 最后,我们推出了 ClimbLab,一个过滤后的 1.2 万亿 tokens 语料库,包含 20 个集群,作为一个研究试验场,以及 ClimbMix,一个紧凑但功能强大的 4000 亿 tokens 数据集,专为高效预训练而设计,在相同的 token 预算下提供卓越的性能。 我们分析了最终的数据混合,阐明了最佳数据混合的特征。 我们的数据可在以下网址获取:this https URL