⏶5
观点:机制可解释性应优先考虑SAEs中的特征一致性
发表
由
Aashiq Muhamed 提交
作者:
Xiangchen Song,
Aashiq Muhamed,
Yujia Zheng,
Lingjing Kong,
Zeyu Tang, Mona T. Diab,
Virginia Smith, Kun Zhang


摘要
稀疏自编码器(SAE)是机械可解释性(MI)中将神经网络激活分解为可解释特征的重要工具。然而,跨不同训练运行中学到的SAE特征存在不一致性,这挑战了识别一组规范特征的愿望,并损害了MI研究的可靠性和效率。这篇立场论文认为,机械可解释性应优先考虑SAE中的特征一致性——即在独立运行中可靠地收敛到等效的特征集。我们建议使用成对词典平均相关系数(PW-MCC)作为衡量一致性的实用指标,并证明通过适当的架构选择可以实现较高水平(在LLM激活上的TopK SAE达到0.80)。我们的贡献包括详细阐述优先考虑一致性的益处;使用模型有机体提供理论基础和合成验证,验证PW-MCC是真实特征恢复的可靠代理;并将这些发现扩展到真实的LLM数据,其中高特征一致性与学到的特征解释的语义相似性密切相关。我们呼吁社区普遍转向系统地衡量特征一致性,以促进MI领域的稳健累积进展。
代码可在 https://github.com/xiangchensong/sae-feature-consistency 获取