跨语言质量评估:基于语言模型的多语言预训练数据过滤方法

发表
Manuel BrackManuel Brack 提交
作者: Mehdi Ali, Manuel BrackManuel Brack, Max Lübbering, Elias WendtElias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice KrausMaurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael FrommMichael Fromm, Kristian Kersting

摘要

高质量的多语言训练数据对于有效预训练大型语言模型 (LLMs) 至关重要。然而,合适的开源多语言数据集的可用性仍然有限。现有的最先进数据集大多依赖于启发式过滤方法,这限制了它们的跨语言迁移能力和可扩展性。在这里,我们介绍 JQL,这是一种系统性的方法,能够高效地大规模策划多样化的高质量多语言数据,同时显著降低计算需求。JQL 将 LLMs 的标注能力提炼到基于预训练多语言嵌入的轻量级标注器中。这些模型展现出强大的多语言和跨语言性能,甚至对于训练中未见的语言和文字亦是如此。经过对 35 种语言的实证评估,由此产生的标注流程显著优于当前如 Fineweb2 等启发式过滤方法。JQL 显著提升了下游模型的训练质量并提高了数据保留率。我们的研究为多语言数据策划提供了实用的见解和宝贵的资源,提高了多语言数据集开发的标准。
查看 arXiv 页面查看 PDF

评论

Manuel BrackManuel Brack
论文作者
论文提交者

JQL 系统地筛选高质量多语言训练数据,使用预训练的多语言嵌入,性能优于启发式方法,并在多种语言中改进下游模型训练。