⏶35
大型语言模型预训练中的模型合并
发表
由
Li Yunshui 提交

作者: Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu,
Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao,
Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu
摘要
模型合并作为一种增强大型语言模型的有前景的技术而出现,尽管其在大规模预训练中的应用仍相对缺乏探索。在本文中,我们对预训练过程中的模型合并技术进行了全面研究。通过对参数量从数百万到超过1000亿的密集型和专家混合(MoE)架构进行大量实验,我们证明使用恒定学习率训练的检查点进行合并,不仅能显著提升性能,还能准确预测退火行为。这些改进带来了更高效的模型开发和显著降低的训练成本。我们关于合并策略和超参数的详细消融研究为基础机制提供了新见解,同时揭示了新颖的应用。通过全面的实验分析,我们为开源社区提供了用于有效模型合并的实用预训练指南。
模型合并已成为增强大型语言模型的一种有前景的技术,尽管其在大型预训练中的应用仍相对 unexplored(未充分探索)。在本文中,我们对预训练过程中的模型合并技术进行了全面调查。通过对数百万到超过千亿参数的密集和专家混合(MoE)架构进行广泛实验,我们证明了合并使用固定学习率训练的检查点不仅能显著提升性能,还能实现对退火行为的准确预测。这些改进带来了更高效的模型开发和显著降低的训练成本。我们对合并策略和超参数的详细消融研究,在揭示潜在机制的同时,也发现了新的应用。通过全面的实验分析,我们为开源社区提供了有效的模型合并实践预训练指南。