⏶4
记忆-压缩循环提高泛化能力
发表
由
Fangyuan Yu 提交

作者:
Fangyuan Yu

摘要
我们在理论上证明,泛化能力的提升不仅可以通过数据规模化实现,也可以通过压缩内部表征来实现。为了将这一洞见付诸实践,我们引入了信息瓶颈语言建模(IBLM)目标,该目标将语言建模重塑为一个约束优化问题:在达到最优预测性能的前提下,最小化表征熵。在经验上,我们观察到在大型语言模型预训练过程中出现了一种涌现的记忆-压缩循环,这由交叉熵和基于矩阵的熵(MBE,一种表征熵的度量)之间的梯度对齐呈现正负交替的振荡模式所证实。这种模式与IBLM所规定的预测-压缩权衡密切对应,也与生物体在清醒学习和睡眠巩固之间交替的行为相似。受此观察启发,我们提出了门控相变(GAPT),这是一种自适应地在记忆和压缩阶段之间切换的训练算法。将GAPT应用于GPT-2在FineWeb数据集上的预训练时,GAPT将MBE降低了50%,并将交叉熵提高了4.8%。在算术乘法预训练任务中,GAPT将OOD泛化能力提高了35%。在旨在模拟灾难性遗忘的环境中,GAPT通过压缩和分离表征来减少干扰,使分离度提高了97%——这与睡眠巩固的功能作用相似。
这篇论文挑战了“数据越多=LLM越好”的论调,通过证明压缩内部表示对于泛化同样重要。我们还观察到,LLM在训练过程中自然地在记忆和压缩之间交替——仿佛镜像着人类的睡眠周期。基于此,它引入了信息瓶颈语言建模目标,以及一种名为GAPT的新训练方法。它将表示熵降低了50%,将GPT-2预训练中的交叉熵降低了4.8%,并在算术任务上将OOD泛化能力提高了35%,并且将冲突经验的解决效果提高了97%——这呼应了睡眠驱动的整合。