Transformer 训练中大规模激活的隐藏动态

发表
Jorge Gallego FelicianoJorge Gallego Feliciano 提交
作者: Jorge Gallego FelicianoJorge Gallego-Feliciano, Steven Aaron McClendonS. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos

摘要

在Transformer的隐藏状态中存在大量激活值,这些值比典型激活值大几个数量级,并且已被证明对模型功能至关重要。虽然先前的工作已经描述了这些在完全训练模型中的现象,但它们在训练过程中出现的时间动态仍然知之甚少。我们首次对Transformer训练过程中大量激活的发展进行了全面分析,并以Pythia模型家族作为测试平台。通过对不同模型尺寸在多个训练检查点上的系统分析,我们证明了大量激活的出现遵循可预测的数学模式,可以使用包含五个关键参数的指数调制对数函数准确建模。我们开发了一个机器学习框架,仅根据架构规范预测这些数学参数,在稳态行为方面实现了高精度,在出现时间和幅度方面实现了中等精度。这些发现使架构师能够通过设计选择预测并潜在地控制大量激活出现的关键方面,这对模型稳定性、训练周期长度、可解释性和优化具有重要意义。我们的发现表明,大量激活的出现受模型设计支配,并且可以在训练开始前预测并潜在地控制。
查看 arXiv 页面查看 PDF

评论

Jorge Gallego FelicianoJorge Gallego Feliciano
论文作者
论文提交者

我们很快就会分享包含我们研究代码的代码库。

Jorge Gallego FelicianoJorge Gallego Feliciano
论文作者
论文提交者

大规模激活是Transformer隐藏状态中的标量值,其值比典型激活值大几个数量级,并且已被证明对模型功能至关重要。虽然先前的工作已经描述了这些现象在完全训练的模型中的特征,但它们在训练过程中出现的时序动态仍然知之甚少。我们首次对Transformer训练过程中大规模激活的发展进行了全面分析,并使用Pythia模型家族作为我们的测试平台。通过对多个训练检查点中各种模型尺寸的系统分析,我们证明大规模激活的出现遵循可预测的数学模式,可以使用具有五个关键参数的指数调制对数函数进行准确建模。我们开发了一个机器学习框架,仅根据架构规格即可预测这些数学参数,在稳态行为方面实现了高精度,在出现时间和幅度方面实现了中等精度。这些发现使架构师能够通过设计选择预测并可能控制大规模激活出现的关键方面,这对模型稳定性、训练周期长度、可解释性和优化具有重要意义。我们的发现表明,大规模激活的出现受模型设计控制,并且可以在训练开始之前预测和潜在控制。