⏶6
驯服大语言模型中的多义性:通过稀疏自编码器实现可证明的特征恢复
发表
由
Siyu Chen 提交

作者: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
摘要
我们研究了使用稀疏自编码器 (SAE) 实现大语言模型可解释性中,具有理论基础的特征恢复所面临的挑战。现有的 SAE 训练算法通常缺乏严格的数学保证,并受超参数敏感性和不稳定性等实际限制。为解决这些问题,我们首先提出了一个新颖的特征恢复问题统计框架,其中包括通过将多义特征建模为底层单义概念的稀疏混合来引入新的特征可识别性概念。在此框架基础上,我们介绍了一种基于“偏差自适应”的新型 SAE 训练算法,该技术能自适应调整神经网络偏置参数以确保适当的激活稀疏性。我们理论上证明了当输入数据从我们提出的统计模型中采样时,该算法能正确恢复所有单义特征。此外,我们开发了一种改进的经验变体——组偏差自适应 (GBA),并证明了当应用于参数高达 15 亿的 LLM 时,它相较于基准方法表现出卓越的性能。这项工作通过提供首个具有理论恢复保证的 SAE 算法,代表着在揭示 SAE 训练奥秘方面迈出了基础性的一步,从而通过增强机制可解释性,推动更透明、更值得信赖的 AI 系统发展。
现有的稀疏自编码器(SAE)训练算法通常缺乏对特征恢复的严格数学保证。从经验上看,L1 正则化和 TopK 激活等方法对超参数调整敏感,并可能表现出不一致性。我们的工作通过以下贡献解决了这些理论和实践问题:
📊 一个新颖的统计框架,通过将多义特征建模为底层单义概念的稀疏组合,严格形式化了特征恢复,并建立了特征可识别性的精确概念。
🛠️ 一种创新的 SAE 训练算法,群偏置自适应(GBA),它自适应地调整神经网络偏置参数以强制实现最佳激活稀疏性,从而允许不同的神经元群组针对不同的激活频率。
🧮 第一个理论保证,证明当输入数据从我们提出的统计模型中采样时,SAE 训练算法可以可靠地恢复所有单义特征。
🚀 在高达 1.5B 参数的 LLMs 上表现出卓越的经验性能,GBA 实现了最佳的稀疏度-损失权衡,同时学习到比基准方法更一致的特征。