使用机制可解释性挖掘大型语言模型中的潜在知识

发表
Bartosz CywińskiBartosz Cywiński 提交
作者: Bartosz CywińskiBartosz Cywiński, Emil Ryd, Senthooran RajamanoharanSenthooran Rajamanoharan, Neel NandaNeel Nanda

摘要

随着语言模型变得越来越强大和复杂,确保它们的可靠性和可信赖性至关重要。有令人担忧的初步证据表明,模型可能会试图欺骗或向其操作者隐瞒秘密。为了探索当前技术能否引出这种隐藏知识,我们训练了一个 Taboo 模型:一个在不明确说出特定秘密词的情况下描述该词的语言模型。重要的是,秘密词未在其训练数据或提示中呈现给模型。然后,我们研究了揭示此秘密的方法。首先,我们评估了非可解释性(黑盒)方法。随后,我们基于机械可解释性技术,包括 logit lens 和稀疏自编码器,开发了大部分自动化的策略。评估表明,这两种方法在我们的概念验证设置中都能有效引出秘密词。我们的发现突出了这些方法在引出隐藏知识方面的潜力,并为未来的工作提出了几个有前景的方向,包括在更复杂的模型有机体上测试和改进这些方法。这项工作旨在朝着解决从语言模型中引出秘密知识的关键问题迈出一步,从而为其安全可靠的部署做出贡献。
查看 arXiv 页面查看 PDF

评论

Bartosz CywińskiBartosz Cywiński
论文作者
论文提交者

欺骗性 LLMs 可能会对操作者隐瞒秘密。我们能否提取这种潜在知识?也许!

我们的 LLM 知道一个秘密词汇,我们使用 mech interp & 黑盒基线提取了它。我们开源了我们的模型,你能做得多好?