预训练语言模型用于历时语言变化发现

04月07日发表
04月10日由 Leshem ChoshenLeshem Choshen 提交
作者: Elisabeth FittschenElisabeth Fittschen, Sabrina Li, Tom LippincottTom Lippincott, Leshem ChoshenLeshem Choshen, Craig MessnerCraig Messner

摘要

大型语言模型 (LLM) 已显示出作为科学发现工具的潜力。这引起了人们对它们在人文学科(如历史语言学和文学研究)中应用的日益增长的兴趣。这些领域经常根据流派或更不灵活的时间段等划分来构建论点。尽管已经努力通过微调或模型编辑将推理限制在特定领域,但我们认为,唯一真正的保证是领域限制的预训练——通常,这是一个数据和计算量巨大的命题。 我们表明,高效的预训练技术可以在语料库上生成有用的模型,这些语料库对于轻松手动检查来说太大,但对于“典型”LLM 方法来说又太小。我们采用了一种新颖的日期归属管道,以便获得由五个 1000 万字切片组成的时间分割数据集。我们训练了两个相应的五模型组,分别针对这些语料库片段进行了高效的预训练和 Llama3-8B 参数高效的微调。 我们发现,预训练模型比微调基线模型训练速度更快,并且它们更好地尊重我们语料库的历史划分。强调速度和精度而不是非历史的全面性,使得能够在我们的目标领域中采用许多新颖的假设发现和测试方法。以历时语言学作为试验台,我们表明我们的方法能够检测到各种现象,包括大规模词汇变化、非词汇(语法和形态)变化以及词义引入/淘汰。我们提供了一个即用型管道,允许将我们的方法扩展到其他目标领域,只需进行最少的调整即可。

评论

Leshem ChoshenLeshem Choshen
论文作者
论文提交者

预训练可以作为一种研究工具,它比 LoRA 更便宜,并且可以研究语法变化、新兴的词义以及谁知道还有什么。

image.png