DLP:大型语言模型中的动态逐层剪枝

发表
Yuli chenYuli chen 提交
作者: Yuli chenYuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang

摘要

剪枝技术最近被广泛采用,以减少大型语言模型(LLMs)的参数规模并提高推理效率。主流的剪枝技术通常依赖于统一的层级剪枝策略,这在高度稀疏性下可能导致严重的性能下降。鉴于LLM中不同层贡献的差异,最近的研究已将焦点转向非统一的层级剪枝。然而,这些方法通常依赖于预定义的值,可能导致次优性能。为了克服这些限制,我们提出了一种名为动态层级剪枝(Dynamic Layerwise Pruning, DLP)的新方法。该方法通过将模型权重与输入激活信息相结合,自适应地确定每个层的相对重要性,并相应地分配剪枝率。实验结果表明,DLP在多个LLM上能够有效保持高稀疏性下的模型性能。具体而言,在70%稀疏性下,DLP与最先进的方法相比,将LLaMA2-7B的困惑度降低了7.79,并将平均准确率提高了2.7%。此外,DLP与各种现有LLM压缩技术兼容,并且可以无缝集成到参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)中。我们发布了代码,可在https://github.com/ironartisan/DLP获取,以促进未来的研究。
查看 arXiv 页面查看 PDF

评论

Yuli chenYuli chen
论文作者
论文提交者

overall (2)_00.png