大型语言模型持续预训练中的学习动态

发表
Howe TissueHowe Tissue 提交
作者: Xingjin Wang, Howe TissueHowe Tissue, Wang LuLu Wang, llLinjing Li, Daniel Dajun Zeng

摘要

持续预训练 (CPT) 已成为将强大的基础模型应用于特定下游任务的一种流行且有效的方法。在这项工作中,我们探索了大型语言模型在整个 CPT 过程中的学习动态。我们特别关注通用能力和下游领域性能如何在每个训练步骤演变,领域性能通过验证损失来衡量。我们观察到,CPT 损失曲线从根本上刻画了从一条曲线到另一条隐藏曲线的转换过程,并且可以通过解耦分布偏移和学习率退火的影响来描述。我们推导出了一个结合了这两个因素的 CPT 缩放定律,使得能够在任何(持续)训练步骤以及跨越 CPT 中的学习率调度 (LRS) 来预测损失。我们的公式提供了一个对 CPT 中几个关键因素的全面理解,包括损失潜力、峰值学习率、训练步骤、重放比例等。此外,我们的方法可以调整以定制训练超参数,以适应不同的 CPT 目标,例如平衡通用和领域特定性能。大量实验表明,我们的缩放定律适用于各种 CPT 数据集和训练超参数。
查看 arXiv 页面查看 PDF

评论

Howe TissueHowe Tissue
论文作者
论文提交者

LLMs持续预训练中的学习动态 (ICML 2025 亮点论文)。

我们发现了一个准确的规律,可以追踪持续预训练在众多变量(例如,学习率、损失势、训练步数、重放比例等)下的性能。

这里有很多有趣且富有启发性的发现!

欢迎任何反馈、评论和讨论!