⏶19
大语言模型可能“大脑腐烂”!
发表
由
Junyuan Hong 提交
作者:
Shuo Xing,
Junyuan Hong,
Yifan Wang, Runjin Chen, Zhenyu Zhang, Ananth Grama, Zhengzhong Tu, Zhangyang Wang
摘要
AI 生成总结
持续接触低质量的网络文本会导致大型语言模型认知能力下降,影响推理、上下文理解、安全性和个性特征,通过指令调整和干净数据预训练可以部分恢复。我们提出并测试了 LLM 脑腐病假说:持续接触垃圾网络文本会导致大型语言模型 (LLM) 的认知能力下降。为了因果上分离数据质量,我们在真实的 Twitter/X语料库上运行了对照实验,通过两种正交操作化方法构建了垃圾和反向对照数据集:M1(参与度)和 M2(语义质量),在各种条件下保持了匹配的 token 规模和训练操作。与对照组相比,在垃圾数据集上对 4 个 LLM 进行持续预训练会导致推理、长上下文理解、安全性方面出现非微小的下降(Hedges' g>0.3),并夸大“黑暗特质”(例如,精神病、自恋)。垃圾和对照数据集的渐进混合也会产生剂量反应式的认知衰减:例如,在 M1 下,随着垃圾比例从 0% 增加到 100%,ARC-Challenge(带思维链)的正确率从 74.9 下降到 57.2,RULER-CWE 的正确率从 84.4 下降到 52.3。
错误分析揭示了几个关键见解。首先,我们将思维跳跃确定为主要病变:模型越来越多地截断或跳过推理链,这解释了大部分错误增长。其次,观察到部分但不完全的修复:指令微调和干净数据预训练的扩展可以改善下降的认知能力,但无法恢复基线能力,这表明是持续的表征漂移而非格式不匹配。最后,我们发现,对于 M1 中的推文,流行度(一种非语义指标)比长度更能指示脑腐病效应。总而言之,这些结果提供了重要的、多视角的证据,表明数据质量是 LLM 能力下降的因果驱动因素,将持续预训练的策展重塑为训练时的安全问题,并鼓励对已部署的 LLM 进行常规的“认知健康检查”。

新发现:大型语言模型(LLMs)就像人类一样,也会“脑萎缩”——在浏览(通过预测下一个词元来学习)海量推特/X上的低质数据后,会变得更笨。这里的低质数据并非传统意义上的垃圾训练数据,而是指那些吸引人但缺乏实质内容或令人昏昏欲睡的内容。
一篇关于我们工作的快速阅读帖:https://x.com/hjy836/status/1980061302497161253