QuaDMix:用于高效 LLM 预训练的质量-多样性平衡数据选择

发表
Xiaohuan ZhouXiaohuan Zhou 提交
作者: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao

摘要

质量和多样性是大型语言模型(LLMs)训练数据的两个关键指标,它们对性能有积极影响。现有研究通常分别优化这些指标,典型做法是先进行质量过滤,然后调整数据比例。然而,这些方法忽视了质量和多样性之间固有的权衡关系,因此有必要对其进行联合考虑。给定固定的训练配额,评估每个数据点的质量及其对整体数据集的补充效应至关重要。在本文中,我们引入了一个统一的数据选择框架,称为 QuaDMix,它能在平衡质量和多样性的同时,自动优化 LLM 预训练的数据分布。具体来说,我们首先提出了多个衡量数据质量的标准,并采用领域分类来区分数据点,从而衡量整体多样性。然后,QuaDMix 采用了一个统一的参数化数据采样函数,根据这些与质量和多样性相关的标签来确定每个数据点的采样概率。为了加速寻找 QuaDMix 框架中的最优参数,我们借鉴 RegMix 方法,在较小的模型上进行了模拟实验,并使用 LightGBM 进行参数搜索。我们在不同模型和数据集上的实验表明,QuaDMix 在多个基准测试中实现了平均 7.2% 的性能提升。这些结果优于独立优化质量和多样性的策略,突显了平衡数据质量和多样性的必要性和能力。
查看 arXiv 页面查看 PDF

评论

Xiaohuan ZhouXiaohuan Zhou
论文提交者

本文介绍了一个统一的数据选择框架,称为QuaDMix,它在平衡质量和多样性的同时,自动优化用于LLM预训练的数据分布。