⏶1

语言模型中的空缺

05月20日发表

05月21日由 Mani shemranifar 提交

作者: Mani Shemiranifar

摘要

尽管基于 Transformer 的语言模型 (LM) 已取得进展，但一个基本问题仍未得到充分解答：推理过程中是否所有层都被激活？我们使用一种不可训练且无参数的自适应计算方法 L2 自适应计算 (LAC) 来检测未激活的层（我们称之为 Voids），从而研究这个问题。我们将 LAC 从其最初注重效率的应用调整为跟踪推理过程中激活的层。该方法通过监测激活值的 L2 范数变化来识别 Voids。我们分析了指令调优 LM 在两个阶段的层激活情况：提示处理 (PP) 阶段，我们跟踪输入提示中每个 token 的激活层；响应生成 (RG) 阶段，我们跟踪每个生成 token 的激活层。我们进一步证明，在这两个阶段激活的是不同的层。为了展示我们方法的有效性，我们在三个基准测试集 MMLU、GPQA Diamond 和 BoolQ 上评估了来自 Llama、Mistral 和 Qwen 系列的三种不同的指令调优 LM。例如，在 MMLU 的零样本设置下，跳过 Qwen2.5-7B-Instruct 中的 Voids 使性能从 69.24 提升到 71.29，而模型仅使用了 30% 的层。同样，Mistral-7B-Instruct-v0.3 在 GPQA Diamond 上，在 PP 和 RG 两个阶段使用 70% 的层时，性能从 13.88 提升到 18.36。这些结果表明，并非所有层在推理过程中都做出同等贡献，并且选择性地跳过其中大部分层可以提高模型在某些任务上的性能。

查看 arXiv 页面查看 PDF

Mani shemranifar

论文作者

论文提交者

Screenshot from 2025-05-21 18-39-28.png

Screenshot from 2025-05-21 18-46-01.png

语言模型中的空缺

摘要

评论