⏶1
语言模型中的空缺
发表
由
Mani shemranifar 提交
作者:
Mani Shemiranifar
摘要
尽管基于 Transformer 的语言模型 (LM) 已取得进展,但一个基本问题仍未得到充分解答:推理过程中是否所有层都被激活?我们使用一种不可训练且无参数的自适应计算方法 L2 自适应计算 (LAC) 来检测未激活的层(我们称之为 Voids),从而研究这个问题。我们将 LAC 从其最初注重效率的应用调整为跟踪推理过程中激活的层。该方法通过监测激活值的 L2 范数变化来识别 Voids。我们分析了指令调优 LM 在两个阶段的层激活情况:提示处理 (PP) 阶段,我们跟踪输入提示中每个 token 的激活层;响应生成 (RG) 阶段,我们跟踪每个生成 token 的激活层。我们进一步证明,在这两个阶段激活的是不同的层。为了展示我们方法的有效性,我们在三个基准测试集 MMLU、GPQA Diamond 和 BoolQ 上评估了来自 Llama、Mistral 和 Qwen 系列的三种不同的指令调优 LM。例如,在 MMLU 的零样本设置下,跳过 Qwen2.5-7B-Instruct 中的 Voids 使性能从 69.24 提升到 71.29,而模型仅使用了 30% 的层。同样,Mistral-7B-Instruct-v0.3 在 GPQA Diamond 上,在 PP 和 RG 两个阶段使用 70% 的层时,性能从 13.88 提升到 18.36。这些结果表明,并非所有层在推理过程中都做出同等贡献,并且选择性地跳过其中大部分层可以提高模型在某些任务上的性能。
评论
论文作者
论文提交者