⏶56
BeyondWeb: 扩展合成数据用于万亿级预训练的经验教训
发表
由
Elie Bakouch 提交

作者:
Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick,
Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt

摘要
大型语言模型(LLM)预训练的最新进展表明,单纯扩大数据量最终会导致收益递减,达到数据瓶颈。为此,使用合成数据进行预训练已成为一种有前景的范式,可以突破性能极限。尽管如此,影响合成数据质量的因素仍知之甚少。在这项工作中,我们引入了 BeyondWeb,一个合成数据生成框架,它能够生成高质量的预训练合成数据。BeyondWeb 显著扩展了传统网络规模数据集的能力,在平均 14 项基准评估中,其表现分别优于最先进的合成预训练数据集 Cosmopedia 和 Nemotron-CC 的高质量合成子集(Nemotron-Synth),最高可达 5.1 个百分点(pp)和 2.6pp。它的训练速度比开放网络数据快 7.7 倍,比 Nemotron-Synth 快 2.7 倍。值得注意的是,一个在 BeyondWeb 上训练了 180B token 的 3B 模型,其性能优于一个在 Cosmopedia 上以相同 token 预算训练的 8B 模型。我们还从 BeyondWeb 中获得了关于预训练合成数据的几点见解:是什么驱动了它的优势,哪些数据应该被改写以及如何改写,以及模型大小和家族对数据质量的影响。总的来说,我们的工作表明,生成高质量的合成预训练数据没有万灵药。最好的结果需要共同优化许多因素,这是一项具有挑战性的任务,需要严谨的科学和实践经验。天真的方法可能会产生适度的改进,但代价可能很高,而执行良好的方法可以产生变革性的改进,正如 BeyondWeb 所例证的。
令牌规模T的合成数据