⏶16

大型语言模型并不知道它们不知道什么

10月10日发表

10月17日由 Hou Pong (Ken) Chan 提交

作者: Chi Seng Cheang, Hou Pong (Ken) Chan Hou Pong Chan, Wenxuan Zhang, Yang Deng

摘要

AI 生成总结

当与主题知识相关时，LLM 对事实查询和幻觉的处理方式相似，导致内部表示难以区分，但在没有主题知识的情况下，对幻觉会产生不同的表示。

最近的研究表明，大型语言模型（LLM）在其内部表示中编码了事实性信号，例如隐藏状态、注意力权重或 token 概率，这意味着 LLM 可能“知道自己不知道”。然而，LLM 也可能通过依赖捷径或虚假关联产生事实错误。这些错误是由鼓励正确预测的相同训练目标驱动的，这就提出了内部计算是否能可靠地区分事实性和幻觉输出的问题。在本工作中，我们通过比较两种基于主体信息依赖性的幻觉类型，对 LLM 如何在内部处理事实查询进行了机制分析。我们发现，当幻觉与主体知识相关时，LLM 采用与正确响应相同的内部回忆过程，导致重叠且无法区分的隐藏状态几何。相比之下，与主体知识无关的幻觉会产生不同的、聚集的表示，从而使其可检测。这些发现揭示了一个根本性的限制：LLM 并没有在其内部状态中编码真实性，而只是编码知识回忆的模式，这表明“LLM 实际上并不知道自己不知道”。

查看 arXiv 页面查看 PDF

Hou Pong (Ken) Chan

论文作者

论文提交者

在这项工作中，我们通过比较两种类型的幻觉对它们对主体信息的依赖程度，对 LLM 如何在内部处理事实查询进行了机制性分析。我们发现，当幻觉与主体知识相关时，LLM 采用与正确响应相同的内部回忆过程，导致重叠且难以区分的隐藏状态几何。相反，脱离主体知识的幻觉会产生不同的、聚集的表示，使其可检测。这些发现揭示了一个根本性的限制：LLM 不会在其内部状态中编码真实性，而只编码知识回忆的模式，这表明“LLM 并不真正知道自己不知道什么”。

大型语言模型并不知道它们不知道什么

摘要

评论