⏶9
混合专家模型的 μ-参数化
发表
由
Elie Bakouch 提交

作者: Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski
摘要
近年来,大语言模型(LLM)的兴趣和应用日益增长,μTransfer 已成为大规模训练中调整超参数的关键技术。与此同时,混合专家模型(MoE)已成为超大模型中的领先架构。然而,这两项进展的交叉点尚未被探索。在这项工作中,我们为混合专家模型推导出了一个 μ-参数化(μP)方法,为路由器和专家模型在不同模型宽度下的特征学习提供了理论保证。我们通过经验验证了我们的参数化方法,并进一步研究了扩展专家数量和粒度如何影响最优学习率。

稀疏专家混合模型(MoE)的 µP 方法