NER检索器:具备类型感知嵌入的零样本命名实体检索

发表
Uri KatzUri Katz 提交
作者: Or Shachar, Uri Katz, Yoav Goldberg, Oren Glickman

摘要

我们提出了NER Retriever,一个用于即席命名实体检索的零样本检索框架。即席命名实体检索是命名实体识别(NER)的一个变体,其中感兴趣的类型不提前提供,而是使用用户定义的类型描述来检索提到该类型实体的文档。我们的方法不依赖于固定的模式或微调的模型,而是利用大型语言模型(LLMs)的内部表示,将实体提及和用户提供的开放式类型描述嵌入到共享的语义空间中。我们发现,内部表示,特别是来自中层Transformer块的值向量,比常用的顶层嵌入更有效地编码了细粒度的类型信息。为了完善这些表示,我们训练了一个轻量级的对比投影网络,该网络可以对类型兼容的实体进行对齐,同时分离不相关的类型。由此产生的实体嵌入紧凑、类型感知,并且非常适合最近邻搜索。在三个基准测试上的评估表明,NER Retriever的性能显著优于词汇和密集句子级检索基线。我们的研究结果为LLM内部的表示选择提供了经验支持,并展示了一种可扩展、无模式的实体检索的实用解决方案。NER Retriever的代码库可在以下网址公开获取:https://github.com/ShacharOr100/ner_retriever
查看 arXiv 页面查看 PDF

评论

Uri KatzUri Katz
论文提交者

NER Retriever,一个零样本检索框架,用于广告名称实体检索,具有类型感知嵌入和轻量级对比投影网络