大型语言模型中的记忆现象:机制、测量与缓解

发表
Xuandong ZhaoXuandong Zhao 提交
作者: Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song

摘要

大型语言模型 (LLM) 在广泛的任务中展示了卓越的能力,但它们也表现出对其训练数据的记忆现象。这种现象引发了关于模型行为、隐私风险以及学习与记忆边界的关键问题。为了解决这些担忧,本文综合了近期研究,并调查了记忆的现状、影响因素及其检测和缓解方法。我们探讨了关键驱动因素,包括训练数据重复、训练动态和影响数据记忆的微调程序。此外,我们研究了前缀提取、成员推断和对抗性提示等方法,评估它们在检测和测量记忆内容方面的有效性。除了技术分析之外,我们还探讨了记忆的更广泛影响,包括法律和道德影响。最后,我们讨论了缓解策略,包括数据清洗、差分隐私和训练后遗忘,同时强调了在平衡有害记忆最小化与实用性方面的开放挑战。本文全面概述了 LLM 记忆在技术、隐私和性能维度上的当前研究状况,并指出了未来工作的关键方向。
查看 arXiv 页面查看 PDF

评论

Xuandong ZhaoXuandong Zhao
论文提交者

LLM中记忆化的全貌:机制、测量与缓解

Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song