⏶18
RefineX:从专家指导程序中大规模学习精炼预训练数据
发表
由
Bibaolong 提交
作者: Baolong Bi, Shenghua Liu, Xingzhang Ren, Dayiheng Liu, Junyang Lin, Yiwei Wang,
Lingrui Mei, Junfeng Fang, Jiafeng Guo, Xueqi Cheng
摘要
大型语言模型(LLM)的基础能力深受其预训练语料库质量的影响。然而,大规模提升数据质量仍然是一个重大挑战,这主要源于精炼效果和处理效率之间的权衡。尽管基于规则的过滤仍然是主流范式,但它通常在文档层面操作,缺乏精炼文档中特定内容所需的细粒度。受ProX等新兴工作的启发,我们提出了RefineX,一个用于通过程序化编辑任务对预训练数据进行大规模、精确精炼的新颖框架。RefineX实现了高效细粒度的数据精炼,同时可靠地保留了原始文本的多样性和自然性。RefineX的核心优势在于将高质量、专家指导的端到端精炼结果提炼成最小的基于编辑的删除程序。这种高精度蒸馏管道用于训练一个高效可靠的精炼模型,该模型能够系统地大规模改进语料库中的每个实例。我们在多个模型规模下对RefineX进行从头开始的预训练评估,发现它在各种下游任务上始终优于在原始、过滤或以其他方式精炼的数据上训练的模型。在7.5亿参数模型上,RefineX在lighteval任务中平均获得了2.6%-7.2%的增益,并且使用显著更少的训练tokens实现了可比的性能。进一步分析表明,RefineX以高效率和高精度可靠地提升了文本质量,优于端到端生成和Prox-C等现有方法。这些结果使RefineX成为现代LLM流水线中优化预训练数据的一种可扩展、有效且可靠的解决方案。
RefineX 实现了大语言模型(LLM)安全、高效、细粒度的数据清洗,显著提升了模型性能和数据质量。