混合专家模型的 μ-参数化

发表
Elie BakouchElie Bakouch 提交
作者: Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski

摘要

近年来,大语言模型(LLM)的兴趣和应用日益增长,μTransfer 已成为大规模训练中调整超参数的关键技术。与此同时,混合专家模型(MoE)已成为超大模型中的领先架构。然而,这两项进展的交叉点尚未被探索。在这项工作中,我们为混合专家模型推导出了一个 μ-参数化(μP)方法,为路由器和专家模型在不同模型宽度下的特征学习提供了理论保证。我们通过经验验证了我们的参数化方法,并进一步研究了扩展专家数量和粒度如何影响最优学习率。
查看 arXiv 页面查看 PDF
混合专家模型的 μ-参数化

评论

Elie BakouchElie Bakouch
论文提交者

稀疏专家混合模型(MoE)的 µP 方法