知识的诞生:大型语言模型中跨时间、空间和尺度的涌现特征

发表
Shayekh IslamShayekh Islam 提交
作者: Shashata Sawmya, Micah Adler, Nir Shavit

摘要

本文研究了解释性类别特征在大语言模型(LLMs)内部的涌现现象,并分析了这些特征在训练检查点(时间)、Transformer 层(空间)和不同模型尺寸(规模)上的行为。我们使用稀疏自编码器进行机制可解释性研究,以确定特定语义概念何时何地在神经激活中涌现。结果表明,在多个领域中,特征的涌现存在清晰的时间和规模特定的阈值。值得注意的是,空间分析揭示了意外的语义再激活现象,即早期层特征在后期层重新出现,这对关于 Transformer 模型中表征动力学的标准假设提出了挑战。
查看 arXiv 页面查看 PDF

评论

Shayekh IslamShayekh Islam
论文提交者

摘要:"本文研究了解释性分类特征在大型语言模型 (LLMs) 中的出现,分析它们在训练检查点(时间)、Transformer 层(空间)和不同模型大小(规模)中的行为。我们使用稀疏自编码器进行机制可解释性研究,以确定特定语义概念在神经激活中何时何地出现。结果表明,跨多个领域,特征的出现存在明确的时间和规模特定阈值。值得注意的是,空间分析揭示了意想不到的语义重新激活,早期层特征在后续层重新出现,这挑战了关于 Transformer 模型表示动态的标准假设。" https://x.com/shashata005/status/1927315597605380517