⏶17
LMEnt:一套用于分析语言模型中知识的工具,涵盖从预训练数据到模型表示的整个过程
发表
由
Daniela 提交
作者: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran,
Mor Geva

摘要
语言模型(LM)越来越多地驱动需要世界知识的真实世界应用。然而,模型将数据转化为关于世界的知识和信念表征的内部过程,人们对此知之甚少。深入了解这些过程可以为开发具有更一致、更鲁棒、更完整知识表征的语言模型铺平道路。为了促进对这些问题的研究,我们提出了LMEnt,这是一个用于分析预训练期间语言模型中知识获取的套件。LMEnt介绍了:(1)一个知识丰富、完全用实体提及进行标注的预训练语料库,基于维基百科;(2)一个基于实体的预训练数据检索方法,其性能比以前的方法高出80.4%;以及(3)12个参数高达1B、拥有4K个中间检查点的预训练模型,其在知识基准上的性能与流行的开源模型相当。总而言之,这些资源提供了一个受控的环境,用于分析预训练中的实体提及与下游性能之间的联系,以及预训练数据中因果干预的影响。我们通过研究跨检查点的知识获取来展示LMEnt的效用,发现事实频率是关键,但并不能完全解释学习趋势。我们发布LMEnt以支持对语言模型中知识的研究,包括知识表征、可塑性、编辑、归因和学习动态。
LMEnt 是一个开源套件,用于分析预训练过程中语言模型中知识的获取,其中包含:
📄 一个已对实体提及进行全面标注的、富含知识的预训练语料库,该语料库基于维基百科。
🌟 一种基于实体的预训练数据检索方法,其性能比以往的方法高出 80.4%!
🤖 12 个预训练模型,参数量高达 1B,4K 个中间检查点,在知识基准测试上的表现与流行的开源模型相当。
我们发布 LMEnt 以支持对语言模型中知识的研究,包括知识表示、可塑性、编辑、归属和学习动态。