CompeteSMoE -- 通过竞争实现统计学保证的专家混合模型训练

发表
Nguyen Van NamNguyen Van Nam 提交
作者: Nguyen Van NamNam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat HoNhat Ho

摘要

稀疏专家混合(SMoE)提供了一种有吸引力的解决方案,可以将模型复杂度扩展到仅增加网络深度或宽度之外的水平。然而,我们认为有效的 SMoE 训练仍然具有挑战性,因为路由过程次优,其中执行计算的专家并不直接参与路由过程。在这项工作中,我们提出了竞争机制,一种将 tokens 路由到具有最高神经响应的专家的新颖机制。理论上,我们表明竞争机制比传统的 softmax 路由具有更好的样本效率。此外,我们开发了 CompeteSMoE,一种简单而有效的训练大型语言模型的算法,通过部署一个路由器来学习竞争策略,从而在较低的训练开销下获得强大的性能。我们在视觉指令微调和语言预训练任务上的广泛实证评估证明了 CompeteSMoE 相较于最先进的 SMoE 策略的有效性、鲁棒性和可扩展性。我们已将实现公开在:https://github.com/Fsoft-AIC/CompeteSMoE。这项工作是之前在 arXiv:2402.02526 发表的研究的改进版本。
查看 arXiv 页面查看 PDF

评论

Nguyen Van NamNguyen Van Nam
论文作者
论文提交者

开源地址:https://github.com/Fsoft-AIC/CompeteSMoE