FineWeb2: 一个管道,万物皆可扩展 —— 适配每种语言的预训练数据处理

发表
Guilherme PenedoGuilherme Penedo 提交
作者: Guilherme PenedoGuilherme Penedo, Hynek KydlicekHynek Kydlíček, Vinko SabolcecVinko Sabolčec, Bettina Messmer, Negar ForoutanNegar Foroutan, Amir Hossein KargaranAmir Hossein Kargaran, Colin RaffelColin Raffel, Martin JaggiMartin Jaggi, Leandro von WerraLeandro Von Werra, Thomas WolfThomas Wolf

摘要

预训练最先进的大型语言模型 (LLM) 需要大量干净且多样化的文本数据。尽管大型高质量英语预训练数据集的开放开发取得了显著进展,但训练高性能多语言LLM仍然是一个挑战,这很大程度上是因为为大量语言定制过滤和去重管道本身就很困难。在这项工作中,我们引入了一种基于FineWeb的新型预训练数据集整理管道,它可以自动适应以支持任何语言。我们在一组九种不同语言上广泛消融了我们的管道设计选择,并由一组基于可衡量标准通过新颖选择过程选出的有意义且信息丰富的评估任务指导。最终,我们表明我们的管道可以用于创建非英语语料库,从而生成比现有数据集性能更好的模型。我们还引入了一种直接且有原则的方法来重新平衡数据集,该方法同时考虑了重复计数和质量,从而提供了额外的性能提升。最后,我们将我们的管道扩展到1000多种语言,使用了近100个Common Crawl快照,生成了FineWeb2,这是一个新的20 TB(50亿文档)多语言数据集,我们将随同我们的管道、训练和评估代码库一起发布。
查看 arXiv 页面查看 PDF

评论

Guilherme PenedoGuilherme Penedo
论文作者
论文提交者

数据集链接: https://huggingface.co/datasets/HuggingFaceFW/fineweb-2