⏶38

专家链：释放混合专家模型的通信能力

06月23日发表

06月25日由 Zihan Wang 提交

作者: Zihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu

摘要

我们提出了专家链（CoE），一种新的专家混合（MoE）架构，它在每个层内引入了顺序专家通信。与传统的MoE模型不同，传统模型中专家独立并行操作，CoE在层内部通过专家链迭代处理令牌。为了支持跨迭代的动态专家选择，CoE在层内的每个迭代步骤都使用一个专用路由器。这种设计允许令牌在每次迭代中重新评估并选择不同的专家，而不是静态分配。因此，CoE引入了一种灵活的路由机制，增加了专家组合的多样性并丰富了模型的表示能力。CoE在固定计算量下展示了性能提升：在数学推理任务上，与标准MoE相比，它将验证损失从1.20降低到1.12。除了性能，CoE还提供了一个新的扩展维度：通过专家迭代实现深度，这补充了传统的宽度/深度扩展。例如，使用2倍迭代可以匹配3倍专家选择（宽度）的性能，同时将内存使用量比其他扩展策略减少17.6-42%。我们的分析表明，CoE的优势源于其迭代残差结构和通过迭代路由增强的专家专业化，这两者共同解锁了更具表现力的表示。代码可在https://github.com/ZihanWang314/coe获取。

查看 arXiv 页面查看 PDF

Zihan Wang

论文提交者

我们提出了专家链 (CoE)，这是一种新的专家混合 (MoE) 架构，它在每个层内引入了顺序专家通信。与传统 MoE 模型中专家独立并行操作不同，CoE 在层内通过专家链迭代处理 token。为了支持跨迭代的动态专家选择，CoE 在层内的每个迭代步骤都使用一个专用路由器。这种设计允许 token 在每次迭代中重新评估并选择不同的专家，而不是静态分配。因此，CoE 引入了一种灵活的路由机制，增加了专家组合的多样性，并丰富了模型的表示能力。CoE 在固定计算量下表现出改进的性能：在数学推理任务上，与标准 MoE 相比，它将验证损失从 1.20 降低到 1.12。除了性能之外，CoE 还提供了一个新的扩展维度：通过专家迭代实现深度，这补充了传统的宽度/深度扩展。例如，使用 2 倍迭代可以达到 3 倍专家选择（宽度上）的性能，同时相对于其他扩展策略减少了 17.6-42% 的内存使用。我们的分析揭示了 CoE 的优势源于其迭代残差结构以及通过迭代路由增强的专家专业化，它们共同解锁了更具表现力的表示。

专家链：释放混合专家模型的通信能力

摘要

评论