⏶3
GuideX: 引导式合成数据生成,用于零样本信息抽取
发表
由
Neil de la fuente 提交

作者:
Neil De La Fuente,
Oscar Sainz, Iker García-Ferrero, Eneko Agirre


摘要
信息抽取(IE)系统传统上是领域特定的,需要昂贵的适应性调整,这涉及到专家模式设计、数据标注和模型训练。尽管大型语言模型在零样本信息抽取方面已展现出潜力,但在标签定义不同的未见领域中,其性能会显著下降。本文介绍了 GUIDEX,一种新颖的方法,能够自动定义领域特定模式、推断指导方针并生成合成标注实例,从而实现更好的域外泛化。使用 GUIDEX 对 Llama 3.1 进行微调,在七个零样本命名实体识别基准测试中创造了新的最先进水平。在没有人工标注数据的情况下,使用 GUIDEX 训练的模型比现有方法提高了多达 7 个 F1 分数;当与人工标注数据结合时,F1 分数又提高了近 2 分。在 GUIDEX 上训练的模型展现出对复杂、领域特定标注模式的增强理解。代码、模型和合成数据集可在此处获取:neilus03.github.io/guidex.com






信息抽取 (IE) 系统传统上是领域特定的,需要昂贵的适应成本,包括专家模式设计、数据标注和模型训练。尽管大型语言模型在零样本信息抽取方面展现出潜力,但在标签定义不同的未见领域中,其性能会显著下降。本文介绍了 GuideX,这是一种新颖的方法,能够自动定义领域特定模式、推断指导方针并生成合成标注实例,从而实现更好的域外泛化。使用 GuideX 微调 LLaMa 3.1 在七个零样本命名实体识别基准测试中创造了新的最先进水平。使用 GuideX 训练的模型在没有人工标注数据的情况下,比现有方法提高了多达 7 个 F1 分数点;当与人工标注数据结合时,F1 分数又高出近 3 个点。在 GuideX 上训练的模型展现出对复杂、领域特定标注模式的更强理解能力。