⏶28
跳过层还是循环利用?预训练大语言模型的测试时深度自适应
发表
由
Tianyi Zhou 提交

作者: Ziyue Li, Yang Li,
Tianyi Zhou

摘要
预训练神经网络能否在不进行任何微调的情况下,根据不同的输入调整其架构?对于简单任务,我们是否需要所有层?对于挑战性任务,所有层是否都足够胜任?我们发现,预训练大型语言模型(LLM)的层可以作为独立的模块进行操作,从而为每个测试样本构建一个更好甚至更浅的定制模型。具体而言,预训练模型中的每一层都可以被跳过/剪枝,或者作为循环神经网络(RNN)重复多次,并以任意顺序与其他层堆叠,从而为每个样本生成一个层链(CoLa)。这种组合空间大大扩展了现有关于循环/递归预训练模块、层剪枝或提前退出网络等工作的范围。我们开发了一种蒙特卡洛树搜索(MCTS)协议,用于探索并识别数学和常识推理基准测试中每个样本的最佳CoLa。与固定深度的静态模型相比,CoLa允许快捷路径(快速思考)、相同层(或多层)的递归(慢速思考),并能结合两者,为不同的输入提供更灵活、动态的架构。我们对经MCTS优化的CoLa进行了广泛分析,这带来了两个关键发现:(1) 对于超过75%的原始LLM预测正确的样本,我们能找到更短的CoLa,这表明在提高推理效率方面有很大的空间;(2) 对于超过60%的原始预测不正确的样本,我们能识别出实现正确预测的CoLa,这表明在性能提升方面有很大的空间。我们的结果凸显了使用预训练LLM的固定架构对不同样本进行推理的不足,并为释放测试时深度自适应的泛化能力铺平了道路。
我们发现,预训练大型语言模型(LLM)的层可以被当作独立的模块来操作,以构建针对每个测试样本定制的、更好甚至更浅的模型。具体来说,来自预训练LLM的每一层可以被跳过或作为循环神经网络(RNN)重复多次,并以任意顺序与其他层堆叠,从而为每个样本生成一个层链(CoLa)。这种组合空间显著扩展了现有关于循环或递归预训练模块、层剪枝或早期退出网络等工作的范围。
我们开发了一种蒙特卡洛树搜索(MCTS)协议,以探索并识别适用于数学和常识推理基准测试中每个样本的最优CoLa。与固定深度的静态模型相比,CoLa允许捷径(快速思考)、同一层(或多层)的重复(慢速思考),并结合两者,为不同的输入提供更灵活、动态的架构。具体来说,
我们引入了一个新的泛化维度,它将静态预训练LLM转变为自适应深度的动态架构,而无需训练任何参数:对于不同的测试样本/任务,预训练的层可以被跳过、重复和组装,以创建更好(更准确和/或更浅)的CoLa模型,而无需进一步训练。
我们开发了一种MCTS协议,用于为每个样本高效地搜索具有自适应深度的CoLa架构。对所获得的CoLa模型中模式的深入分析揭示了关于不同大小的预训练/微调模型在不同深度处层的重要性及冗余性的关键见解,这些见解也因不同难度级别的任务而异。
我们对MCTS优化的CoLa进行了广泛分析,得出了两个关键发现:
(1) 对于原始LLM预测正确的超过75%的样本,我们可以找到更短的CoLa,这表明在提高推理效率方面有很大的空间;
(2) 对于原始LLM预测错误的超过60%的样本,我们可以识别出能够实现正确预测的CoLa,这表明在性能提升方面有很大的空间。
我们的结果突出了使用固定架构的预训练LLM对不同样本进行推理的缺点,并为释放测试时深度自适应的泛化能力铺平了道路。