⏶7

GPTailor：通过层切割和拼接进行大型语言模型剪枝

06月25日发表

06月26日由 Jonas Geiping 提交

作者: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping

摘要

大型语言模型（LLMs）在语言理解和生成方面展现出卓越的能力。然而，这种令人印象深刻的能力通常伴随着庞大的模型尺寸，这给部署和推理带来了显著挑战。尽管模型参数的结构化剪枝提供了一种在部署时降低计算成本的有前景的方法，但当前方法主要关注单模型剪枝。在这项工作中，我们开发了一种新颖的策略，通过战略性地组合或合并来自微调模型变体的层来压缩模型，通过聚合在不同微调中强调的能力来保留原始模型的能力。我们将这些LLM的最佳定制视为一个零阶优化问题，采用一个支持三种不同操作的搜索空间：（1）层移除，（2）从不同候选模型中选择层，以及（3）层合并。我们的实验表明，这种方法实现了具有竞争力的模型剪枝，例如，对于Llama2-13B模型家族，我们的压缩模型在移除约25%参数的同时保持了原始性能的约97.3%，显著优于之前的最先进方法。代码可在https://github.com/Guinan-Su/auto-merge-llm获取。

查看 arXiv 页面查看 PDF

Jonas Geiping

论文作者

论文提交者

代码可在此处获取：https://github.com/Guinan-Su/auto-merge-llm

GPTailor：通过层切割和拼接进行大型语言模型剪枝

摘要

评论