⏶7
通过函数标记在大型语言模型中进行记忆检索和巩固
发表
由
yichen he 提交
作者:
Shaohua Zhang, Yuan Lin, Hang Li
摘要
AI 生成总结
大型语言模型中的函数标记在推理期间激活预测特征,并通过预测后续内容标记来指导预训练期间的记忆巩固。大型语言模型(LLMs)的卓越成功源于它们能够在预训练期间将大量知识整合到内存中,并在推理期间从中检索,从而实现知识记忆、指令遵循和推理等高级功能。然而,LLMs 的内存检索和整合机制仍然知之甚少。在本文中,我们提出了函数词假说来解释 LLMs 的工作原理:在推理过程中,函数词激活上下文中最具预测性的特征,并控制下一个词的预测(内存检索)。在预训练过程中,预测跟随函数词的下一个词(通常是内容词)可以增加 LLMs 的学习特征数量并更新模型参数(内存整合)。这里的函数词大致对应于语言学中的功能词,包括标点符号、冠词、介词和连词,与内容词相对。我们提供了大量实验证据支持这一假说。使用二分图分析,我们表明少量函数词激活了大部分特征。案例研究进一步揭示了函数词如何激活上下文中最具预测性的特征来指导下一个词的预测。我们还发现,在预训练过程中,训练损失主要由预测函数词后面的下一个内容词所主导,这迫使函数词从上下文中选择最具预测性的特征。
评论
论文提交者
此评论已隐藏。