⏶38
专家链:释放混合专家模型的通信能力
发表
由
Zihan Wang 提交

作者: Zihan Wang, Rui Pan,
Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu
摘要
我们提出了专家链(CoE),一种新的专家混合(MoE)架构,它在每个层内引入了顺序专家通信。与传统的MoE模型不同,传统模型中专家独立并行操作,CoE在层内部通过专家链迭代处理令牌。为了支持跨迭代的动态专家选择,CoE在层内的每个迭代步骤都使用一个专用路由器。这种设计允许令牌在每次迭代中重新评估并选择不同的专家,而不是静态分配。因此,CoE引入了一种灵活的路由机制,增加了专家组合的多样性并丰富了模型的表示能力。CoE在固定计算量下展示了性能提升:在数学推理任务上,与标准MoE相比,它将验证损失从1.20降低到1.12。除了性能,CoE还提供了一个新的扩展维度:通过专家迭代实现深度,这补充了传统的宽度/深度扩展。例如,使用2倍迭代可以匹配3倍专家选择(宽度)的性能,同时将内存使用量比其他扩展策略减少17.6-42%。我们的分析表明,CoE的优势源于其迭代残差结构和通过迭代路由增强的专家专业化,这两者共同解锁了更具表现力的表示。代码可在https://github.com/ZihanWang314/coe获取。
我们提出了专家链 (CoE),这是一种新的专家混合 (MoE) 架构,它在每个层内引入了顺序专家通信。与传统 MoE 模型中专家独立并行操作不同,CoE 在层内通过专家链迭代处理 token。为了支持跨迭代的动态专家选择,CoE 在层内的每个迭代步骤都使用一个专用路由器。这种设计允许 token 在每次迭代中重新评估并选择不同的专家,而不是静态分配。因此,CoE 引入了一种灵活的路由机制,增加了专家组合的多样性,并丰富了模型的表示能力。CoE 在固定计算量下表现出改进的性能:在数学推理任务上,与标准 MoE 相比,它将验证损失从 1.20 降低到 1.12。除了性能之外,CoE 还提供了一个新的扩展维度:通过专家迭代实现深度,这补充了传统的宽度/深度扩展。例如,使用 2 倍迭代可以达到 3 倍专家选择(宽度上)的性能,同时相对于其他扩展策略减少了 17.6-42% 的内存使用。我们的分析揭示了 CoE 的优势源于其迭代残差结构以及通过迭代路由增强的专家专业化,它们共同解锁了更具表现力的表示。