⏶9
WINA:用于加速大语言模型推理的权重感知神经元激活
发表
由
Tianyi Chen 提交
作者: Sihan Chen, Dan Zhao,
Jongwoo Ko,
Colby Banbury, Huiping Zhuang, Luming Liang,
Tianyi Chen
摘要
大型语言模型(LLM)日益增长的计算需求使得高效推理和激活策略变得越来越重要。虽然最近的方法,如专家混合(MoE),利用选择性激活但需要专门训练,而免训练的稀疏激活方法通过其即插即用的设计提供了更广泛的适用性和卓越的资源效率。然而,许多现有方法仅依赖于隐藏状态的幅度来确定激活,导致高近似误差和次优的推理精度。为了解决这些限制,我们提出了WINA(Weight Informed Neuron Activation),这是一个新颖、简单且免训练的稀疏激活框架,它联合考虑隐藏状态幅度以及权重矩阵的列方向ell_2范数。我们证明,这导致了一种稀疏化策略,能够获得最优的近似误差界,并且理论保证比现有技术更紧密。在经验上,WINA在相同的稀疏度水平下,在各种LLM架构和数据集上,平均性能也比最先进的方法(例如TEAL)高出多达2.94%。这些结果使WINA成为LLM推理中免训练稀疏激活的新性能前沿,推动了免训练稀疏激活方法的发展,并为高效推理设定了可靠的基线。源代码可在以下链接获取:https://github.com/microsoft/wina。
大型语言模型(LLMs)日益增长的计算需求使得高效的推理和激活策略变得越来越重要。虽然最近的方法,如专家混合(MoE),利用选择性激活但需要专门训练,免训练的稀疏激活方法通过其即插即用的设计提供了更广泛的适用性和卓越的资源效率。然而,许多现有方法仅依赖于隐藏状态的幅度来确定激活,导致较高的近似误差和次优的推理准确率。为了解决这些局限性,我们提出了 WINA (Weight Informed Neuron Activation),一种新颖、简单且免训练的稀疏激活框架,它联合考虑了隐藏状态的幅度和权重矩阵的列范数。我们证明,这带来了一种稀疏化策略,可以获得具有比现有技术更严格的理论保证的最优近似误差界。在实验上,WINA 在相同的稀疏度水平下,在各种 LLM 架构和数据集上,平均性能也比最先进的方法(例如 TEAL)高达 。这些结果将 WINA 定位为 LLM 推理中免训练稀疏激活的新性能前沿,推动了免训练稀疏激活方法的发展,并为高效推理设定了一个强大的基线。源代码可在 此 HTTPS 链接 获取。