CorrSteer:通过基于相关性的稀疏自编码器特征选择,引导式改进大型语言模型的任务性能和安全性

发表
Seonglae ChoSeonglae Cho 提交
作者: Seonglae ChoSeonglae Cho, Zekun Wu, Adriano Koshiyama

摘要

稀疏自编码器(SAE)可以从大型语言模型(LLM)中无监督地提取可解释的特征。然而,它们在下游引导任务中的有效性受到对比数据集或大量激活存储的需求的限制。为了解决这些限制,我们提出了 CorrSteer,它通过在推理时将样本正确性与生成令牌的 SAE 激活相关联来选择特征。这种方法仅使用推理时激活来提取更相关的特征,从而避免虚假相关性。它还从平均激活中获得引导系数,从而自动化整个管道。我们的方法在 Gemma 2 2B 和 LLaMA 3.1 8B 上的 QA、偏见缓解、越狱预防和推理基准测试中显示出改进的任务性能,值得注意的是,仅用 4000 个样本就实现了 MMLU 性能 +4.1% 和 HarmBench 性能 +22.9% 的改进。选定的特征展示了与每个任务要求一致的语义上有意义的模式,揭示了驱动性能的潜在能力。我们的工作将基于相关性的选择确立为一种有效且可扩展的方法,用于语言模型应用中的自动化 SAE 引导。
查看 arXiv 页面查看 PDF
CorrSteer:通过基于相关性的稀疏自编码器特征选择,引导式改进大型语言模型的任务性能和安全性
CorrSteer:通过基于相关性的稀疏自编码器特征选择,引导式改进大型语言模型的任务性能和安全性

评论

Seonglae ChoSeonglae Cho
论文作者
论文提交者

现有的引导方法依赖于仅限于静态上下文的对比示例。相比之下,CorrSteer 更进一步,直接利用生成时激活,扩展了基于 SAE 的引导,并在 QA、安全和偏见基准测试中取得了实际收益。