⏶3
向最优秀者学习,以不同的方式:数据选择中多样性驱动的再思考
发表
由
Xiao Liu 提交
作者: Hongyi He, Xiao Liu, Zhenghao Lin, Mingni Tang, Yi Cheng, Jintao Wang, Wenjie Li, Peng Cheng, Yeyun Gong
摘要
AI 生成总结
正交多样性感知选择 (ODiS) 算法通过对评估维度进行正交分解,确保训练数据的质量和多样性,从而提高大型语言模型的性能。高质量的预训练数据对于大型语言模型至关重要,其中质量捕捉事实可靠性和语义价值,
多样性确保广泛覆盖和分布异质性。现有方法通常依赖于单维度或多维度基于分数的选择。
然而,直接选择得分最高的数据往往会降低性能,需要从更广泛的范围中采样以恢复结果。
上述数据集分数和下游基准结果之间的非单调性揭示了一个基本偏差:
基于分数的方法会使相关维度崩溃,导致得分最高的数据看似高质量,
但系统地忽略了多样性。我们认为,确保多样性需要将相关指标分解为正交特征维度,
然后可以直接从这些维度中选择得分最高的数据。
因此,我们提出了正交多样性感知选择(ODiS)算法,
该算法在数据选择过程中同时保留了质量和多样性。
首先,ODiS 从多个维度评估数据,涵盖语言质量、知识质量和理解难度。
然后,通过主成分分析(PCA)对多维分数进行去相关,得到正交评估维度。
对于每个维度,训练一个基于 Roberta 的评分器,将数据回归到 PCA
投影分数上,从而在大规模语料库上实现可伸缩推理。
最后,ODiS 通过在每个正交维度中选择得分最高的数据来构建训练数据集,
从而确保质量和多样性。实证结果表明,ODiS
选择的数据维度间重叠小于 2\%,证实了维度间的正交性。
更重要的是,使用 ODiS
选择的数据训练的模型在下游基准上显著优于其他基线,
这突出了正交、多样性感知数据选择对于 LLM 的必要性。
高质量的预训练数据对大型语言模型至关重要,其中质量涵盖事实可靠性和语义价值,多样性确保广泛覆盖和分布异质性。现有方法通常依赖于单维度或多维度的基于分数选择。然而,直接选择得分最高的数据往往会降低性能,需要从更广泛的范围中采样以恢复结果。上述数据集分数与下游基准结果之间的非单调性揭示了一个根本性偏差:基于分数的方法会合并相关维度,导致得分最高的数据看似高质量,但系统性地忽略了多样性。我们认为,确保多样性需要将相关指标分解为正交特征维度,从中可以直接选择得分最高的数据。因此,我们提出了正交多样性感知选择(ODiS)算法,该算法在数据选择过程中同时保留了质量和多样性。首先,ODiS 从多个维度评估数据,涵盖语言质量、知识质量和理解难度。然后,通过主成分分析(PCA)对多维分数进行去相关,得到正交评估维度。对于每个维度,训练一个基于 Roberta 的评分器将数据回归到 PCA 投影分数上,从而在大规模语料库上实现可扩展的推理。最后,ODiS 通过在每个正交维度内选择得分最高的数据来构建训练数据集,从而确保质量和多样性。实验结果表明,ODiS 选择的数据在维度间重叠度小于 2%,证实了维度之间的正交性。更重要的是,使用 ODiS 选择的数据训练的模型在下游基准测试中显著优于其他基线,凸显了正交、多样性感知数据选择对 LLM 的必要性。