大型语言模型并不知道它们不知道什么

发表
Hou Pong (Ken) ChanHou Pong (Ken) Chan 提交
作者: Chi Seng CheangChi Seng Cheang, Hou Pong (Ken) ChanHou Pong Chan, Wenxuan Zhang, Yang DengYang Deng

摘要

AI 生成总结
当与主题知识相关时,LLM 对事实查询和幻觉的处理方式相似,导致内部表示难以区分,但在没有主题知识的情况下,对幻觉会产生不同的表示。
最近的研究表明,大型语言模型(LLM)在其内部表示中编码了事实性信号,例如隐藏状态、注意力权重或 token 概率,这意味着 LLM 可能“知道自己不知道”。然而,LLM 也可能通过依赖捷径或虚假关联产生事实错误。这些错误是由鼓励正确预测的相同训练目标驱动的,这就提出了内部计算是否能可靠地区分事实性和幻觉输出的问题。在本工作中,我们通过比较两种基于主体信息依赖性的幻觉类型,对 LLM 如何在内部处理事实查询进行了机制分析。我们发现,当幻觉与主体知识相关时,LLM 采用与正确响应相同的内部回忆过程,导致重叠且无法区分的隐藏状态几何。相比之下,与主体知识无关的幻觉会产生不同的、聚集的表示,从而使其可检测。这些发现揭示了一个根本性的限制:LLM 并没有在其内部状态中编码真实性,而只是编码知识回忆的模式,这表明“LLM 实际上并不知道自己不知道”。
查看 arXiv 页面查看 PDF

评论

Hou Pong (Ken) ChanHou Pong (Ken) Chan
论文作者
论文提交者

在这项工作中,我们通过比较两种类型的幻觉对它们对主体信息的依赖程度,对 LLM 如何在内部处理事实查询进行了机制性分析。我们发现,当幻觉与主体知识相关时,LLM 采用与正确响应相同的内部回忆过程,导致重叠且难以区分的隐藏状态几何。相反,脱离主体知识的幻觉会产生不同的、聚集的表示,使其可检测。这些发现揭示了一个根本性的限制:LLM 不会在其内部状态中编码真实性,而只编码知识回忆的模式,这表明“LLM 并不真正知道自己不知道什么”。

image