⏶7
真理神经元
发表
由
Haohang Li 提交

作者:
Haohang Li,
Yupeng Cao,
Yangyang Yu,
Jordan W. Suchow,
Zining Zhu

摘要
尽管语言模型取得了显著成功并在各种工作流程中得到部署,但它们有时会产生不真实的响应。我们对这些模型中如何机械地编码真实性的理解有限,这危及了它们的可靠性和安全性。在本文中,我们提出了一种在神经元层面识别真实性表示的方法。我们表明,语言模型包含真实性神经元,它们以与主题无关的方式编码真实性。在不同规模的模型上进行的实验验证了真实性神经元的存在,证实了在神经元层面编码真实性是许多语言模型共有的属性。真实性神经元在层间的分布模式与之前关于真实性几何结构的研究结果一致。选择性地抑制通过 TruthfulQA 数据集发现的真实性神经元的激活,会降低在 TruthfulQA 和其他基准测试上的性能,表明真实性机制与特定数据集无关。我们的结果为语言模型中真实性背后的机制提供了新颖的见解,并突显了提高其可信度和可靠性的潜在方向。
尽管语言模型取得了显著成功并应用于多样化的工作流程,但它们有时会产生不真实的回应。我们对其真实性如何在这些模型中进行机制性编码的理解有限,这危及了它们的可靠性和安全性。在本文中,我们提出了一种在神经元层面识别真实性表示的方法。我们表明语言模型包含真实性神经元,这些神经元以一种与主题无关的方式编码真实性。对不同规模的模型进行的实验验证了真实性神经元的存在,证实了在神经元层面编码真实性是许多语言模型共有的特性。真实性神经元在各层中的分布模式与先前关于真实性几何结构的发现一致。通过TruthfulQA数据集发现的真实性神经元的激活被选择性地抑制后,模型在TruthfulQA和其他基准上的性能均有所下降,这表明真实性机制并不仅限于特定数据集。我们的结果为语言模型中真实性背后的机制提供了新颖的见解,并强调了提高其信任度和可靠性的潜在方向。