⏶19
通过表示层级结构揭秘模型剪枝为何奏效
发表
由
Shwai He 提交
作者: Shwai He, Guoheng Sun, Haichao Zhang, Yun Fu, Ang Li
摘要
AI 生成总结
网络剪枝对不同表示空间的影响不同,由于生成过程中概率空间变换的不稳定性,导致不同任务的性能差异。网络剪枝通过移除不重要的参数或架构,通常被期望在保持性能的同时提高效率。然而,这种期望在语言任务中并不总能成立:剪枝后的模型在非生成式任务上表现良好,但在生成式场景中经常失败。为了理解这种差异,我们从表示层次结构的角度分析了网络剪枝,将语言模型的内部计算分解为三个连续的空间:嵌入(隐藏表示)、Logit(Softmax 前的输出)和概率(Softmax 后的分布)。我们发现,嵌入空间和 Logit 空间中的表示对剪枝引起的扰动具有很强的鲁棒性。然而,从 Logit 到概率的非线性变换放大了这些偏差,这些偏差在时间步长中不断累积,导致生成过程中性能大幅下降。相比之下,类别 Token 概率子空间的稳定性,结合嵌入空间的鲁棒性,支持了剪枝在检索和多选题选择等非生成式任务中的有效性。我们的分析理清了剪枝在不同任务中的影响,并为其应用提供了实践指导。代码可在 https://github.com/CASE-Lab-UMD/Pruning-on-Representations 获取。
网络剪枝通过移除次要的参数或架构,通常被认为能在保持性能的同时提高效率。然而,这种预期在语言任务中并不总能成立:剪枝后的模型在非生成式任务上表现良好,但在生成式场景中经常失败。为了理解这种差异,我们从表示层次结构的视角分析了网络剪枝,将语言模型的内部计算分解为三个连续的空间:嵌入(隐藏表示)、logit(softmax 前输出)和概率(softmax 后分布)。我们发现,嵌入和 logit 空间中的表示对剪枝诱导的扰动具有较强的鲁棒性。然而,从 logit 到概率的非线性变换放大了这些偏差,这些偏差随时间步累积,导致生成过程中的显著性能退化。相比之下,分类 token 概率子空间的稳定性,结合嵌入空间的鲁棒性,支持了剪枝在检索和多项选择等非生成式任务中的有效性。我们的分析厘清了剪枝对不同任务的影响,并为其应用提供了实践指导。代码可在 https://github.com/CASE-Lab-UMD/Pruning-on-Representations 获取。