⏶3
即时重布线专家:用于混合专家模型中更好在线适应的持续重布线
发表
由
Guinan-Su 提交
作者:
Guinan Su, Yanwu Yang, Li Shen, Lu Yin, Shiwei Liu, Jonas Geiping
摘要
AI 生成总结
一个无数据、在线的测试时间框架,利用自监督学习在文本生成过程中优化 MoE 路由决策,无需外部数据即可提高性能和鲁棒性。混合专家(MoE)模型通过稀疏专家激活实现高效扩展,但由于部署中的分布变化,经常会遇到次优的路由决策。虽然现有的测试时适应方法有可能解决这些问题,但它们主要关注密集模型,并且需要访问外部数据,这限制了它们在 MoE 架构上的实际应用。然而,我们发现,与其依赖参考数据,不如仅根据输入上下文实时优化 MoE 专家选择。因此,我们提出了一种无数据、在线的测试时框架,该框架在文本生成过程中持续适应 MoE 路由决策,而无需外部监督或数据。我们的方法在两个阶段之间循环:在预填充阶段,以及之后定期进行,我们使用基于已生成序列的自监督来优化模型的路由决策。然后,我们正常生成文本,在下次适应之前保持修改后的路由器。我们通过轻量级的加性向量来实现这一点,这些向量仅更新选定层中的路由器 logits,从而在保持计算效率的同时防止过度适应。实验结果表明,在具有挑战性的推理任务上取得了持续的性能提升,同时保持了对上下文变化的鲁棒性。例如,我们的方法在 HumanEval 上使用 OLMoE 取得了 5.5% 的改进。此外,由于其即插即用特性,我们的方法自然地补充了现有的测试时扩展技术,例如,当与 DeepSeek-V2-Lite 上的自洽性结合时,可实现 6% 的平均增益。
评论
论文作者
论文提交者