⏶9
用于推理任务的混合专家语言模型的最优稀疏性
发表
由
Taishi 提交

作者:
Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota

摘要
经验性标度律推动了大型语言模型 (LLM) 的演进,但每当模型架构或数据管道发生变化时,其系数都会发生偏移。混合专家 (MoE) 模型,现已成为最先进系统中的标准配置,引入了一个新的稀疏性维度,而当前密集模型的前沿尚未考虑这一点。我们研究了 MoE 稀疏性如何影响两个不同的能力领域:记忆和推理。我们训练了 MoE Transformer 系列模型,在固定计算预算的情况下,系统地改变总参数、激活参数和 top-k 路由。对于我们训练的每个模型,我们记录了预训练损失、下游任务损失和任务准确性,这使我们能够将训练-测试泛化差距与损失-准确性差距分开。记忆基准随着总参数的增加而单调提高,这与训练损失相似。相比之下,推理性能趋于饱和,甚至可能出现回归,尽管总参数和训练损失持续提高。在激活参数恒定的情况下,仅改变 top-k 的影响很小,并且诸如学习率和初始化之类的经典超参数以与稀疏性相同的方向调节了泛化差距。训练后强化学习 (GRPO) 或额外的测试时间计算都无法挽救过度稀疏模型的推理缺陷。我们的模型检查点、代码和日志可在 https://github.com/rioyokotalab/optimal-sparsity 上开源。
经验性规模定律推动了大型语言模型(LLM)的发展,但当模型架构或数据管道发生变化时,其系数会随之改变。作为当前最先进系统标准的混合专家(MoE)模型,引入了一个新的稀疏性维度,而当前密集模型的前沿研究忽略了这一点。我们研究了 MoE 稀疏性如何影响两个不同的能力领域:记忆和推理。我们训练了 MoE Transformer 系列模型,系统地改变了总参数量、激活参数量和 top-k 路由,同时保持计算预算固定。对于每个模型,我们都记录了预训练损失、下游任务损失和任务准确率,这使我们能够将训练-测试泛化差距与损失-准确率差距分开。记忆基准随总参数量的增加而单调提高,与训练损失相呼应。相比之下,推理性能会饱和,甚至可能出现回归,尽管总参数量和训练损失都在持续提高。在激活参数量恒定的情况下,仅改变 top-k 对模型影响甚微,而学习率和初始化等经典超参数以与稀疏性相同的方向调节泛化差距。训练后强化学习(GRPO)或额外的测试时间计算都无法挽救过度稀疏模型的推理缺陷。我们的模型检查点、代码和日志可在 https://github.com/rioyokotalab/optimal-sparsity 上开源。