ARMOR:通过自适应矩阵分解实现高性能半结构化剪枝

发表
Lawrence LiuLawrence Liu 提交
作者: Lawrence LiuLawrence Liu, Alexander Liu, Mengdi Wang, Tuo Zhao, Lin F. Yang

摘要

AI 生成总结
ARMOR 是一种新颖的训练后剪枝算法,通过将权重矩阵分解为稀疏核和块对角矩阵来增强大型语言模型的性能,与传统的剪枝方法相比,在准确性和内存效率方面取得了更好的效果。
大型语言模型(LLMs)由于其巨大的计算和内存需求,在部署上面临严峻的挑战。尽管半结构化剪枝,特别是2:4稀疏性,为实际硬件加速提供了一条途径,但现有方法往往会导致显著的性能下降。为了弥合这一差距,我们引入了ARMOR:(自适应表示与矩阵分解),一种新颖的单阶段后训练剪枝算法。ARMOR不是直接剪枝权重,而是将每个权重矩阵分解为一个2:4稀疏核,并用两个低开销的块对角矩阵进行包裹。这些包裹充当高效的预处理和后处理误差校正器,与传统的2:4剪枝技术相比,提供了更大的灵活性来保持模型质量。通过一个最小化层级代理损失的块坐标下降算法来选择稀疏核和块对角包裹。我们理论上证明,该优化保证收敛到一个代理损失小于或等于最先进剪枝算法的解决方案。在Llama (Touvron et al., 2023; Dubey et al., 2024) 和Qwen (Yang et al., 2025) 模型系列上的实验表明,ARMOR在广泛的下游任务和困惑度评估中,始终显著优于最先进的2:4剪枝方法。ARMOR在实现卓越性能的同时,保留了2:4剪枝的推理加速和显著的内存使用量减少,从而在模型压缩和任务准确性之间建立了更有效的权衡。
查看 arXiv 页面查看 PDF

评论

Lawrence LiuLawrence Liu
论文作者
论文提交者

ARMOR 是一种新的半结构化剪枝方法,它引入了一种矩阵分解,该分解由一个 2:4 的稀疏核心以及围绕它的两个轻量级块对角矩阵组成。我们提出了一种使用这种分解的单次压缩算法,并在行业标准的基准测试套件上证明,该算法显著且持续地优于现有的单次半结构化剪枝算法。