通过半非负矩阵分解将MLP激活分解为可解释特征

发表
Or ShafranOr Shafran 提交
作者: Or ShafranOr Shafran, Atticus GeigerAtticus Geiger, Mor GevaMor Geva

摘要

机械可解释性的一个核心目标是识别大型语言模型 (LLM) 中能够因果解释其输出的正确分析单元。早期工作侧重于单个神经元,但神经元通常编码多个概念的证据促使研究转向分析激活空间中的方向。一个关键问题是如何以无监督的方式找到能够捕获可解释特征的方向。当前方法依赖于使用稀疏自编码器 (SAE) 进行字典学习,这些SAE通常在残差流激活上进行训练,以从头开始学习方向。然而,SAE在因果评估中常常表现不佳,并且缺乏内在的可解释性,因为它们的学习并没有明确地与模型的计算相关联。在本文中,我们通过使用半非负矩阵分解 (SNMF) 直接分解MLP激活来解决这些局限性,使得学习到的特征 (a) 是共同激活神经元的稀疏线性组合,并且 (b) 映射到它们的激活输入,从而使其可以直接解释。在 Llama 3.1、Gemma 2 和 GPT-2 上的实验表明,SNMF 导出的特征在因果引导方面优于 SAE 和一个强大的有监督基线(均值差异),同时与人类可解释的概念保持一致。进一步分析揭示,特定的神经元组合在语义相关的特征中被重复使用,揭示了MLP激活空间中的层次结构。综上所述,这些结果将 SNMF 定位为一种简单有效的工具,用于识别LLM中的可解释特征和剖析概念表示。
查看 arXiv 页面查看 PDF

评论

Or ShafranOr Shafran
论文作者
论文提交者

很高兴分享我们关于将MLP激活分解为可解释特征的论文。我们介绍了一种基于半非负矩阵分解(SNMF)的简单无监督方法,该方法从MLP层中提取稀疏的、组合的特征。SNMF易于在小型和大型数据集上进行训练。由于其线性分解特性,SNMF可以递归应用,以揭示MLP神经元中存在的自然层级结构。语义相关的特征重用一组共享神经元,这些神经元因果地代表其总体概念。此外,我们的特征在因果操纵方面优于SAE和强大的有监督基线,同时与人类可解释的结构紧密对齐。