⏶10
大型语言模型训练的数据效能
发表
由
Fangyuan Yu 提交

作者: Yalun Dai,
Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong,
Scarlett Li

摘要
数据是语言模型(LM)训练的基础。近期研究致力于数据效率,旨在通过选择最小或最优的训练数据子集来最大化性能。数据过滤、采样和选择等技术在此领域发挥着关键作用。作为补充,我们定义了**数据效能**(Data Efficacy),它侧重于通过优化训练数据的组织来最大化性能,而这方面目前相对未被充分探索。本工作引入了一种通用的范式 **DELT**,用于在语言模型训练中考虑数据效能,突出了训练数据组织的重要性。DELT 包含三个组成部分:数据评分、数据选择和数据排序。在这些组成部分中,我们设计了**可学习性-质量评分(LQS)**,作为数据评分的一个新实例,它从梯度一致性角度考虑了每个数据样本的可学习性和质量。我们还设计了**折叠排序(FO)**,作为数据排序的一个新颖实例,它解决了模型遗忘和数据分布偏差等问题。综合实验验证了语言模型训练中的数据效能,结果表明:首先,所提出的 DELT 的各种实例在不增加数据规模和模型大小的情况下,不同程度地提升了语言模型性能。其次,在这些实例中,我们提出的用于数据评分的 LQS 与用于数据排序的折叠排序相结合,实现了最显著的改进。最后,通过应用数据选择,数据效能可以与数据效率协同实现。因此,我们认为数据效能是语言模型训练中一个有前景的基础研究领域。
预训练中的顺序很重要,因为我们只训练一个epoch。