⏶1
重温 LRP:位置归因是Transformer可解释性中缺失的要素
发表
由
Itamar Zimerman 提交
作者: Yarden Bakish,
Itamar Zimerman, Hila Chefer,
Lior Wolf
摘要
为Transformer开发有效的可解释性工具是深度学习研究中的一个关键方向。该领域最有前途的方法之一是分层相关性传播 (LRP),它通过根据预定义规则重新分配激活值,将相关性分数向后传播到输入空间。然而,现有基于LRP的Transformer可解释性方法完全忽略了Transformer架构的关键组成部分:其位置编码 (PE),这导致违反了守恒性质,并失去了与结构和位置特征相关的一种重要而独特的关联性。为解决这一限制,我们将Transformer可解释性的输入空间重新定义为位置-Token对的集合。这使我们能够提出专门的、具有理论基础的LRP规则,旨在跨各种位置编码方法传播归因,包括旋转式、可学习和绝对位置编码。对微调分类器和零样本基础模型(如LLaMA 3)进行的大量实验表明,我们的方法在视觉和NLP可解释性任务中均显著优于最先进水平。我们的代码已公开。
评论
论文作者
论文提交者
大家好!我们提出了一种用于Transformer和LLM的最先进归因方法,与现有方法相比,它能提供显著更忠实的解释,特别是对于与结构和位置特征相关的概念。一个用户友好、开源的实现,包含XAI演示,可在 https://github.com/YardenBakish/PE-AWARE-LRP 获取。
为Transformer开发有效的解释性工具是深度学习研究中的一项关键追求。该领域最有前景的方法之一是逐层相关性传播(Layer-wise Relevance Propagation, LRP),它通过根据预定义规则重新分配激活值,将相关性分数从网络反向传播到输入空间。然而,现有的基于LRP的Transformer解释性方法完全忽略了Transformer架构的一个关键组成部分:其位置编码(positional encoding, PE),导致违反了守恒性(conservation property),并丧失了一种重要且独特的关联性(relevance),而这种关联性也与结构和位置特征相关。为了解决这一限制,我们将Transformer解释性的输入空间重新定义为一组位置-token对。这使我们能够提出专门的、有理论依据的LRP规则,旨在跨各种位置编码方法(包括旋转位置编码(Rotary PE)、可学习位置编码(Learnable PE)和绝对位置编码(Absolute PE))传播归因(attributions)。对微调分类器和零样本基础模型(如LLaMA 3)进行的广泛实验表明,我们的方法在
视觉和自然语言处理(NLP)解释性任务中均显著优于现有最先进方法。我们的代码已公开可用。