⏶4
MoA: 异构适配器混合,实现大型语言模型的参数高效微调
发表
由
cj 提交
作者:
Jie Cao, Tianwei Lin, Hongyang He, Rolan Yan, Wenqiao Zhang, Juncheng Li, Dongping Zhang, Siliang Tang, Yueting Zhuang
摘要
最近的研究将低秩适应(LoRA)和专家混合(MoE)相结合,以进一步提高大型语言模型(LLM)应用中参数高效微调(PEFT)方法的性能。现有方法采用同构的MoE-LoRA架构,由结构和容量相似或相同的LoRA专家组成。然而,这些方法常出现表示坍塌和专家负载不均衡的问题,这负面影响了LLM的潜力。为了解决这些挑战,我们提出了一种异构的适配器混合(MoA)方法。该方法动态地整合了具有不同结构的PEFT适配器专家,利用它们的互补表示能力来促进专家专业化,从而增强预训练知识向 M下游任务的有效迁移。MoA支持两种变体:(i) 软MoA通过对所有专家输出进行加权融合实现细粒度集成;(ii) 稀疏MoA根据适配器专家的贡献稀疏地激活它们,同时性能退化可忽略不计。实验结果表明,异构MoA在性能和参数效率方面均优于同构MoE-LoRA方法。我们的项目可在 https://github.com/DCDmllm/MoA 获取。
一种更好的 moe-lora 方法