选择与合并:迈向基于大型语言模型的可适应和可扩展命名实体识别

发表
Chenghao FanChenghao Fan 提交
作者: Zhuojun Ding, Wei Wei, Chenghao FanChenghao Fan

摘要

监督式微调(SFT)被广泛用于将大型语言模型(LLM)与信息提取(IE)任务(例如命名实体识别(NER))对齐。然而,标注此类细粒度标签和训练领域特定模型成本高昂。现有工作通常在多个领域训练一个统一模型,但此类方法缺乏适应性和可扩展性,因为并非所有训练数据都对目标领域有益,并且扩展已训练模型仍然具有挑战性。我们提出了 SaM 框架,该框架在推理时动态选择和合并专家模型。具体来说,对于目标领域,我们根据(i)与目标领域的领域相似性以及(ii)在抽样实例上的性能,分别选择在现有领域上预训练的领域特定专家。然后合并这些专家以创建针对目标领域优化的任务特定模型。通过动态合并对目标领域有益的专家,我们在不进行额外训练的情况下提高了跨各种领域的泛化能力。此外,专家可以方便地添加或删除,从而实现出色的可扩展性。在多个基准测试上的广泛实验证明了我们框架的有效性,其性能平均比统一模型高出 10%。我们进一步提供了关于潜在改进、实践经验以及我们框架扩展的见解。
查看 arXiv 页面查看 PDF

评论

Chenghao FanChenghao Fan
论文作者
论文提交者

用于领域特定IE任务的动态专家合并。

GitHub: https://github.com/Ding-ZJ/SaM