通过利用特征相关性有效训练稀疏自编码器

发表
Daniil LaptevDaniil Laptev 提交
作者: Vadim KurochkinVadim Kurochkin, Yaroslav AksenovYaroslav Aksenov, Daniil LaptevDaniil Laptev, Daniil GavrilovDaniil Gavrilov, Nikita BalaganskyNikita Balagansky

摘要

稀疏自编码器 (SAE) 通过将语言模型的隐藏状态分解为可解释的潜在方向,在解释这些状态方面展现出巨大的潜力。然而,大规模训练 SAE 仍然具有挑战性,尤其是在使用大字典尺寸时。虽然解码器可以利用稀疏感知核来提高效率,但编码器仍然需要计算密集型线性操作以及大输出维度。为了解决这个问题,我们提出了 KronSAE,一种新的架构,它通过 Kronecker 乘积分解来分解潜在表示,从而大幅减少内存和计算开销。此外,我们引入了 mAND,一种近似二进制 AND 操作的可微激活函数,它在我们的因子分解框架中提高了可解释性和性能。
查看 arXiv 页面查看 PDF

评论

Daniil LaptevDaniil Laptev
论文作者
论文提交者

我们提出了 KronSAE,一种可扩展的稀疏自编码器,它通过将潜在空间分解为逐头的克罗内克积并引入 mAND(一种可微分的 AND 式激活函数),解决了编码器投影中的计算瓶颈。通过将编码器分解为细矩阵并强制执行逻辑交互,我们将 FLOPs 减少高达 50%,同时提高了重建保真度和可解释性。主要亮点包括:(1) 玩具模型验证,KronSAE 恢复了块状结构特征相关性 (RV=0.358 对比 TopK 的 0.038),证明了其捕捉相关潜在组的能力;(2) AND 式特征组合,其中后潜在字典元素作为多义预潜在(例如,“治疗”来自“工具”+“必要”)的交集出现;以及 (3) 实际收益,在真实 LLM 中具有更高的解释方差 (+4.3%) 和更低的特征吸收。我们的工作在不牺牲可扩展性的前提下,实现了高效、可解释的特征发现。