⏶6
FaithfulSAE:旨在利用稀疏自编码器捕获忠实特征,无需外部数据集依赖
发表
由
Seonglae Cho 提交

作者:
Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed

摘要
稀疏自编码器 (SAE) 已成为一种很有前景的解决方案,用于将大型语言模型的表示分解为可解释的特征。然而,Paulo 和 Belrose (2025) 强调了不同初始化种子之间的不稳定性,而 Heap 等人 (2025) 指出 SAE 可能无法捕获模型内部特征。这些问题可能源于在外部数据集上训练 SAE,这些数据集要么是从网络收集的,要么是由另一个模型生成的,它们可能包含超出模型泛化能力范围的域外(OOD)数据。这可能导致幻觉化的 SAE 特征,我们称之为“虚假特征”,它们会错误地表示模型的内部激活。为解决这些问题,我们提出了 FaithfulSAE,这是一种在模型自身的合成数据集上训练 SAE 的方法。使用 FaithfulSAE,我们证明了在较少域外(OOD)的指令数据集上训练 SAE,可以使 SAE 在不同种子之间更稳定。值得注意的是,在 SAE 探测任务中,FaithfulSAE 优于在基于网络的数据集上训练的 SAE,并且在 7 个模型中有 5 个模型的虚假特征比率更低。总的来说,我们的方法消除了对外部数据集的依赖,通过更好地捕获模型内部特征来提高可解释性,同时强调了 SAE 训练数据集经常被忽视的重要性。
评论

论文作者
论文提交者
此评论已隐藏。