⏶35

大型语言模型预训练中的模型合并

05月17日发表

05月20日由 Li Yunshui 提交

作者: Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu

摘要

模型合并作为一种增强大型语言模型的有前景的技术而出现，尽管其在大规模预训练中的应用仍相对缺乏探索。在本文中，我们对预训练过程中的模型合并技术进行了全面研究。通过对参数量从数百万到超过1000亿的密集型和专家混合（MoE）架构进行大量实验，我们证明使用恒定学习率训练的检查点进行合并，不仅能显著提升性能，还能准确预测退火行为。这些改进带来了更高效的模型开发和显著降低的训练成本。我们关于合并策略和超参数的详细消融研究为基础机制提供了新见解，同时揭示了新颖的应用。通过全面的实验分析，我们为开源社区提供了用于有效模型合并的实用预训练指南。

查看 arXiv 页面查看 PDF

Li Yunshui

论文提交者

模型合并已成为增强大型语言模型的一种有前景的技术，尽管其在大型预训练中的应用仍相对 unexplored（未充分探索）。在本文中，我们对预训练过程中的模型合并技术进行了全面调查。通过对数百万到超过千亿参数的密集和专家混合（MoE）架构进行广泛实验，我们证明了合并使用固定学习率训练的检查点不仅能显著提升性能，还能实现对退火行为的准确预测。这些改进带来了更高效的模型开发和显著降低的训练成本。我们对合并策略和超参数的详细消融研究，在揭示潜在机制的同时，也发现了新的应用。通过全面的实验分析，我们为开源社区提供了有效的模型合并实践预训练指南。

Xiangyu

做得很棒！我想知道作者是否注意到/发现了合并密集模型（Dense models）和 MoE 模型有什么区别？直观上来说，对于 MoE 模型，Routers 的合并可能会给专家选择带来不稳定性？

Li Yunshui

论文提交者

我们没有明显观察到合并密集模型（Dense models）和混合专家模型（MoE models）之间的差异。尽管我没有进行定量分析，但我感觉这不应该对专家选择带来不稳定，否则模型表现可能会变差？我们没有对门控（gate）进行任何特殊的合并操作。

Mengzhao Chen

论文作者

干得好！

大型语言模型预训练中的模型合并

摘要

评论