语言模型为何会产生幻觉

发表
taesiritaesiri 提交
作者: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang

摘要

AI 生成总结
语言模型产生不正确陈述的原因在于其训练和评估程序倾向于奖励猜测而非承认不确定性,这导致基准评分需要进行社会技术性变革。
就像学生面对困难的考试题目一样,大型语言模型有时会在不确定时进行猜测,产生看似合理但错误的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统中也普遍存在,并损害了信任。我们认为,语言模型之所以会产生幻觉,是因为训练和评估程序奖励的是猜测而不是承认不确定性,并且我们分析了现代训练流程中产生幻觉的统计原因。幻觉不必是神秘的——它们仅仅源于二元分类中的错误。如果无法区分错误陈述和事实,那么预训练语言模型中的幻觉就会通过自然的统计压力而产生。然后,我们认为幻觉之所以持续存在,是因为大多数评估的评分方式——语言模型被优化成优秀的应试者,而在不确定时猜测可以提高考试成绩。这种“普遍的”惩罚不确定性响应的做法只能通过一种社会技术性的缓解措施来解决:修改现有但存在偏差且主导排行榜的基准测试的评分方式,而不是引入额外的幻觉评估。这一改变可能会引导该领域朝着更值得信赖的人工智能系统发展。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 就像学生面对难题一样,大型语言模型有时也会在不确定时猜测,产生看似合理但错误的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统中也依然存在,并损害了信任。我们认为,语言模型之所以产生幻觉,是因为训练和评估程序奖励的是猜测而非承认不确定性,并且我们分析了现代训练流程中幻觉的统计原因。幻觉并非神秘莫测——它们仅仅源于二元分类中的错误。如果无法区分错误陈述和事实,那么预训练语言模型中的幻觉就会通过自然的统计压力产生。我们进一步认为,幻觉之所以持续存在,是因为大多数评估的评分方式——语言模型被优化为擅长考试,而在不确定时猜测可以提高考试成绩。这种“惩罚不确定响应”的“流行病”只能通过一种社会技术手段来解决:修改现有基准的评分方式,这些基准虽然存在偏差但主导着排行榜,而不是引入额外的幻觉评估。这一改变可能会引导该领域朝着更值得信赖的人工智能系统发展。

Michael BarryMichael Barry

虽然这可能具有强大的目的,但我们在部署它的阶段应谨慎。因为它可能是一个哲学上的死胡同。“确定性约束学习”这个想法本身就是一个矛盾。

不确定性是确定性的前兆。没有不确定就没有确定。学习是从不确定走向确定的过程。“幻觉”就是这条路径。没有这条路径,就没有学习。

如果我们限制学生只在确定的时候回答,那么他将永远不确定。

我认为“幻觉”不是要根除的东西,因为正是它使得学习得以发生。

我认为我们需要非常仔细地考虑在哪里、何时以及为什么部署这种方法。这本身就足以写一篇论文了。

这并非要贬低这项扎实的研究,只是提供一些思考。

Corral7305Corral7305

我敢说,大型语言模型(LLM)总是会产生幻觉,这是它们检索信息的方式,通过根据概率编造下一个词。只是有时检索到的信息是正确的,有时则是编造的。对 LLM 本身来说,这和它“什么都不知道”是一回事。

依我之见,只要架构不改变,我们只能通过多模型协作进行“伪补丁”,让一个具有不同温度设置的模型充当监督者。或者,当然还有更复杂的,但我愚钝的头脑无法理解的方法。

Krystian ZawistowskiKrystian Zawistowski

(...)

Corral7305Corral7305

我有点想知道,小型语言模型(SLM)是否会是更好的方法。拥有一些真正只在知识子集方面是专家的小模型。比如一个擅长 Python 的,一个擅长 Ruby 的,一个擅长汽车的,任何东西都可以。
然后让一些模型在需要时将请求路由到 SLM。如果是一个数学问题,就路由到那个精通 R 或其他语言的 SLM。让它来编写代码解决这个问题。如果是一个图像分类问题,就路由到另一个 SLM。

我在 ChatGPT 中确实看到了这一点,它实际上会提取 Python 来解决一些简单的数学问题。它编写了一个小的 Python 脚本来实际计算解决方案。

我认为这将解决模型越来越大,我们将把它们放在哪里?当我们想解决积分问题时,我们真的需要(仅举例)诗歌或音乐理论方面的知识吗?

我知道,已经有尝试创建专家混合模型,它们有点像这样,但我认为在这种程度上进行扩展会很有益。我认为,仍然存在一些技术限制,仅仅是 VRAM 的大小。即使是像 Kimi 2 这样开源的模型,量化版本也需要大约 1.2TB 的 VRAM,所以 GPT 5 运行起来需要多少我都不想知道了。因此,拥有多个更小的模型以一种“微服务式”的设置应该能解决很多这类问题。

它们甚至不需要是真正意义上的 SLM。我们可以真正地训练这些专家,并让它们成为一个拥有万亿参数的模型,仅仅是为了理解编码范式或用特定语言进行编码。

但我猜我刚刚偏离了这篇论文的真正主题……对此表示抱歉。

Michael BarryMichael Barry

选择“微服务”架构而不是单体架构,有利有弊,但最大的缺点是您将告别跨领域生成。这是一个交易的终结者。我们宁愿每天都看到幻觉,也不愿看到单领域生成。跨领域生成是使这些模型如此强大的原因。

我预测最好的方法将是模型的民主化。许多单体模型,在不同混合和组合的重叠数据集上进行训练,这些模型进行投票,也许还会加入一些自然选择的压力。人类尚未解决现实世界中的幻觉问题,那么为什么我们应该相信计算机科学家会在每个人类都失败的地方取得成功呢?因此,民主。