⏶185
语言模型为何会产生幻觉
发表
由
taesiri 提交

作者: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang
摘要
AI 生成总结
语言模型产生不正确陈述的原因在于其训练和评估程序倾向于奖励猜测而非承认不确定性,这导致基准评分需要进行社会技术性变革。就像学生面对困难的考试题目一样,大型语言模型有时会在不确定时进行猜测,产生看似合理但错误的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统中也普遍存在,并损害了信任。我们认为,语言模型之所以会产生幻觉,是因为训练和评估程序奖励的是猜测而不是承认不确定性,并且我们分析了现代训练流程中产生幻觉的统计原因。幻觉不必是神秘的——它们仅仅源于二元分类中的错误。如果无法区分错误陈述和事实,那么预训练语言模型中的幻觉就会通过自然的统计压力而产生。然后,我们认为幻觉之所以持续存在,是因为大多数评估的评分方式——语言模型被优化成优秀的应试者,而在不确定时猜测可以提高考试成绩。这种“普遍的”惩罚不确定性响应的做法只能通过一种社会技术性的缓解措施来解决:修改现有但存在偏差且主导排行榜的基准测试的评分方式,而不是引入额外的幻觉评估。这一改变可能会引导该领域朝着更值得信赖的人工智能系统发展。
评论
我有点想知道,小型语言模型(SLM)是否会是更好的方法。拥有一些真正只在知识子集方面是专家的小模型。比如一个擅长 Python 的,一个擅长 Ruby 的,一个擅长汽车的,任何东西都可以。
然后让一些模型在需要时将请求路由到 SLM。如果是一个数学问题,就路由到那个精通 R 或其他语言的 SLM。让它来编写代码解决这个问题。如果是一个图像分类问题,就路由到另一个 SLM。
我在 ChatGPT 中确实看到了这一点,它实际上会提取 Python 来解决一些简单的数学问题。它编写了一个小的 Python 脚本来实际计算解决方案。
我认为这将解决模型越来越大,我们将把它们放在哪里?当我们想解决积分问题时,我们真的需要(仅举例)诗歌或音乐理论方面的知识吗?
我知道,已经有尝试创建专家混合模型,它们有点像这样,但我认为在这种程度上进行扩展会很有益。我认为,仍然存在一些技术限制,仅仅是 VRAM 的大小。即使是像 Kimi 2 这样开源的模型,量化版本也需要大约 1.2TB 的 VRAM,所以 GPT 5 运行起来需要多少我都不想知道了。因此,拥有多个更小的模型以一种“微服务式”的设置应该能解决很多这类问题。
它们甚至不需要是真正意义上的 SLM。我们可以真正地训练这些专家,并让它们成为一个拥有万亿参数的模型,仅仅是为了理解编码范式或用特定语言进行编码。
但我猜我刚刚偏离了这篇论文的真正主题……对此表示抱歉。
> 就像学生面对难题一样,大型语言模型有时也会在不确定时猜测,产生看似合理但错误的陈述,而不是承认不确定性。这种“幻觉”即使在最先进的系统中也依然存在,并损害了信任。我们认为,语言模型之所以产生幻觉,是因为训练和评估程序奖励的是猜测而非承认不确定性,并且我们分析了现代训练流程中幻觉的统计原因。幻觉并非神秘莫测——它们仅仅源于二元分类中的错误。如果无法区分错误陈述和事实,那么预训练语言模型中的幻觉就会通过自然的统计压力产生。我们进一步认为,幻觉之所以持续存在,是因为大多数评估的评分方式——语言模型被优化为擅长考试,而在不确定时猜测可以提高考试成绩。这种“惩罚不确定响应”的“流行病”只能通过一种社会技术手段来解决:修改现有基准的评分方式,这些基准虽然存在偏差但主导着排行榜,而不是引入额外的幻觉评估。这一改变可能会引导该领域朝着更值得信赖的人工智能系统发展。