超维度探测器:通过向量符号架构解码大语言模型表示

发表
Marco BronziniMarco Bronzini 提交
作者: Marco BronziniMarco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini

摘要

AI 生成总结
一种新颖的超维度探针方法,使用向量符号化架构从 LLM 向量空间解码信息,提供了对模型状态和失败的可解释见解。
尽管大型语言模型 (LLM) 功能强大,但其内部表示仍然不透明,理解有限。当前的解释性方法,例如直接 logit 归因 (DLA) 和稀疏自编码器 (SAE),由于模型输出词汇表或不明确的特征名称等限制,提供的洞察力有限。这项工作引入了超维度探针 (Hyperdimensional Probe),这是一种用于解码 LLM 向量空间信息的范例。它结合了符号表示和神经探针的思想,通过向量符号架构 (VSA) 将模型的残差流投影到可解释的概念上。这种探针结合了 SAE 和传统探针的优点,同时克服了它们的关键限制。我们通过受控的输入-补全任务来验证我们的解码范例,在输入跨越语法模式识别、键值关联和抽象推理时,探查模型在下一个 token 预测之前的最终状态。我们还在问答场景中对其进行了评估,检查文本生成之前和之后的模型状态。我们的实验表明,我们的探针能够可靠地从各种 LLM、嵌入大小和输入域中提取有意义的概念,并且还有助于识别 LLM 的故障。我们的工作推动了 LLM 向量空间中的信息解码,从而能够从神经表示中提取更具信息性、更具可解释性和结构化的特征。
查看 arXiv 页面查看 PDF
超维度探测器:通过向量符号架构解码大语言模型表示

评论

Marco BronziniMarco Bronzini
论文作者
论文提交者

这项工作结合了符号表示和神经探针,推出了一种名为“Hyperdimensional Probe”的新范式,用于将大语言模型的向量空间解码为人类可理解的特征,并能跨语言模型和输入类型一致地提取有意义的概念。