⏶61
C3PO:用于测试时专家重混合的关键层、核心专家、协作路径优化
04月10日发表
04月11日由
Tianyi Zhou 提交

作者:
Zhongyang Li, Ziyue Li,
Tianyi Zhou

摘要
混合专家 (MoE) 大型语言模型 (LLM) 遭受严重的次优专家路径的困扰——我们的研究表明,从预训练中学习到的朴素专家选择留下了令人惊讶的 10-20% 的准确率提升空间。受到这一观察的启发,我们开发了一种新颖的测试时优化方法,以针对每个测试样本联合重新加权或“重新混合”不同层中的专家。由于测试样本的真实标签是未知的,我们建议优化由来自样本参考集的样本的“成功邻居”定义的替代目标。我们引入了三种基于寻找模式、核回归和相似参考样本/任务的平均损失的替代方法和算法。为了降低优化整个路径的成本,我们仅将我们的算法应用于关键层中的核心专家的混合权重,这可以获得相似的性能,但可以节省大量的计算量。这促成了“关键层、核心专家、协同路径优化 (C3PO)”。我们将 C3PO 应用于两个最新的 MoE LLM,并在六个广泛使用的基准测试中对其进行了检验。它始终如一地将基础模型的准确率提高了 7-15%,并且大幅优于广泛使用的测试时学习基线,例如,上下文学习和提示/前缀调整。此外,C3PO 使具有 1-3B 激活参数的 MoE LLM 能够优于具有 7-9B 参数的 LLM,从而提高了 MoE 在效率方面的优势。我们全面的消融研究进一步揭示了在 MoE 上实现测试时改进的新见解。
评论

论文作者
论文提交者