⏶9

混合专家模型的 μ-参数化

08月13日发表

08月14日由 Elie Bakouch 提交

作者: Jan Małaśnicki, Kamil Ciebiera, Mateusz Boruń, Maciej Pióro, Jan Ludziejewski, Maciej Stefaniak, Michał Krutul, Sebastian Jaszczur, Marek Cygan, Kamil Adamczewski, Jakub Krajewski

摘要

近年来，大语言模型（LLM）的兴趣和应用日益增长，μTransfer 已成为大规模训练中调整超参数的关键技术。与此同时，混合专家模型（MoE）已成为超大模型中的领先架构。然而，这两项进展的交叉点尚未被探索。在这项工作中，我们为混合专家模型推导出了一个 μ-参数化（μP）方法，为路由器和专家模型在不同模型宽度下的特征学习提供了理论保证。我们通过经验验证了我们的参数化方法，并进一步研究了扩展专家数量和粒度如何影响最优学习率。

查看 arXiv 页面查看 PDF

Elie Bakouch

论文提交者

稀疏专家混合模型（MoE）的 µP 方法

混合专家模型的 μ-参数化

摘要

评论