实现灵活的多大语言模型集成用于可扩展的知识聚合

发表
Tony KongTony Kong 提交
作者: Zhenglun Kong, Zheng Zhan, Shiyue Hou, Yifan Gong, Xin Meng, Pengwei Sui, Peiyan Dong, Xuan Shen, Zifeng Wang, Pu Zhao, Hao Tang, Stratis Ioannidis, Yanzhi Wang

摘要

大型语言模型 (LLMs) 已显示出显著的应用前景,但通过传统的微调来持续改进仍然具有挑战性,尤其是在整合其他专业 LLMs 的能力时。集成和权重合并等流行方法需要大量内存,并且难以适应变化的数据环境。最近的研究致力于将多个 LLMs 的知识迁移到单个目标模型中;然而,它们在任务之间存在干扰和性能下降问题,这主要是由于候选选择和训练流程缺乏灵活性。为了解决这些问题,我们提出一个框架,它能够自适应地选择和聚合来自不同 LLMs 的知识,以构建一个更强大、独立的模型,避免了集成和不灵活的权重合并带来的高内存开销。具体来说,我们设计了一个自适应选择网络,根据分数识别最相关的源 LLMs,从而减少知识干扰。我们进一步提出了一种动态加权融合策略,考虑了候选 LLMs 固有的优势,并结合了一个反馈驱动的损失函数,防止选择器收敛到单一的源子集。实验结果表明,与现有方法相比,我们的方法能够实现更稳定和可扩展的知识聚合过程,同时将知识干扰减少高达 50%。代码可在 https://github.com/ZLKong/LLM_Integration 获取。
查看 arXiv 页面查看 PDF

评论

Tony KongTony Kong
论文提交者

主要贡献如下:

• 本文发现,仅仅增加融合候选项的数量和扩大源模型池并不一定能提升融合效果,选择性策略在最小化知识干扰方面更有效。

• 本文提出了一种新颖的动态集成框架,该框架自适应地选择需要集成的 LLMs,利用自适应选择网络、动态加权融合策略和反馈驱动的损失函数来缓解干扰问题并提升性能。

• 随着集成模型数量的增加,模型在多个基准测试上的准确性得到提升,同时与现有方法相比,知识干扰减少高达 50%。