在LLM预训练中从哪里找到Grokking?无需测试即可监控记忆到泛化的过程

发表
Tianyi ZhouTianyi Zhou 提交
作者: Ziyue Li, Chenrui FanChenrui Fan, Tianyi ZhouTianyi Zhou

摘要

Grokking,即在训练损失收敛后,测试性能仍能持续提升的现象,最近已在神经网络训练中被观察到,这使得泛化机制和推理等新兴能力变得神秘莫测。以往的研究通常在少数玩具或高度特定任务上训练小型模型数千个周期,而我们首次对7B大型语言模型(LLM)——即OLMoE——在单次预训练期间的检查点上进行了Grokking研究。我们计算了训练损失,并评估了其在包括数学推理、代码生成以及常识/领域特定知识检索任务在内的多样化基准任务上的泛化能力。 我们的研究首次验证了Grokking现象在大规模基础模型的预训练中仍然存在,尽管不同数据可能异步进入Grokking阶段。我们通过探究LLM的内部动态,进一步揭示了Grokking的“泛化涌现”机制。具体来说,我们发现,在Grokking过程中,训练样本的路径(即跨层的专家选择)从随机的、实例特定的状态演变为样本之间更结构化和可共享的状态。此外,尽管损失已收敛,但样本路径的复杂性却降低了。这些迹象表明了从记忆到泛化的转变,为延迟泛化提供了一种机制解释。在本研究中,我们开发了两个新颖的指标来量化路径距离和单个路径的复杂性。我们展示了它们预测各种下游任务泛化改进的能力。这些指标高效、易于计算,并且仅依赖于训练数据。因此,它们对预训练具有实际价值,使我们能够在不进行微调和测试的情况下监测泛化性能。在理论上,我们表明更结构化的路径可以降低模型复杂性并改善泛化界限。
查看 arXiv 页面查看 PDF
在LLM预训练中从哪里找到Grokking?无需测试即可监控记忆到泛化的过程
在LLM预训练中从哪里找到Grokking?无需测试即可监控记忆到泛化的过程

评论

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

主要发现:

  1. 在实际规模LLM的单程预训练中,Grokking现象依然存在,但它对于不同的数据组/域是局部且异步的,不同于以往研究中所有数据的全局Grokking。

  2. Grokking的记忆到泛化机制可以通过LLM内部状态(如MoE通路)的动态变化来解释,在Grokking过程中,训练样本间的相似性以及层间的一致性会增加。这表明了一种更智能的记忆方式:使用更多样本间共享的知识,并降低每个样本的复杂性,从而实现更好的泛化。通路复杂性与泛化界限之间的理论联系也支持了这一点。

  3. 我们开发的两个衡量通路复杂性的新颖指标仅在训练数据上计算,无需任何测试/验证集或模型微调,为LLM预训练期间监测泛化提供了一个实用高效的工具。

Tianyi ZhouTianyi Zhou
论文作者
论文提交者

Screenshot 2025-06-27 at 8.09.46 PM.png

Screenshot 2025-06-27 at 8.10.00 PM.png