大型语言模型中的认知多样性和知识崩溃

发表
Dustin WrightDustin Wright 提交
作者: Dustin WrightDustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Chan Young Park, Isabelle Augenstein

摘要

AI 生成总结
一项研究衡量了 LLM 输出中的认知多样性,表明较新的模型多样性更高,但仍低于网络搜索,并且 RAG 在文化背景变化的情况下提高了多样性。
大型语言模型 (LLM) 倾向于生成在词汇、语义和风格上同质化的文本。这带来了知识崩溃的风险,即同质化的 LLM 会随着时间的推移而媒介化信息可访问范围的缩小。现有的同质化研究受到仅关注封闭式多项选择设置或模糊语义特征的限制,并且没有考虑跨时间和文化背景的趋势。为了克服这一点,我们提出了一种衡量认识论多样性(即 LLM 输出中现实世界声明的变化)的新方法,我们利用它来对 LLM 知识崩溃进行广泛的实证研究。我们测试了 27 个 LLM、155 个涵盖 12 个国家的主题以及 200 个源自真实用户聊天的提示变体。对于我们研究的主题,我们发现尽管新模型倾向于生成更多样化的声明,但几乎所有模型都比基本的网络搜索的认识论多样性要低。我们发现模型规模对认识论多样性有负面影响,而检索增强生成 (RAG) 有正面影响,尽管 RAG 的改进因文化背景而异。最后,与传统的知识来源(维基百科)相比,我们发现特定国家的声明比当地语言更能反映英语,这突显了认识论表示方面的差距。
查看 arXiv 页面查看 PDF
大型语言模型中的认知多样性和知识崩溃

评论

Dustin WrightDustin Wright
论文作者
论文提交者

大型语言模型(LLMs)倾向于生成在词汇、语义和风格上同质化的文本。这带来了知识崩溃的风险,即同质化的 LLM 会随着时间的推移而缩小可访问信息的范围。现有的关于同质化的研究受到仅关注封闭式多项选择设置或模糊语义特征的限制,并且没有考察不同时间段和文化背景的趋势。为了克服这一点,我们提出了一种衡量认知多样性(即 LLM 输出中真实世界声明的变化)的新方法,并利用它对 LLM 知识崩溃进行了广泛的实证研究。我们测试了 27 个 LLM、覆盖 12 个国家/地区的 155 个主题,以及来自真实用户聊天的 200 个提示变体。对于我们研究中的主题,我们表明,尽管较新的模型倾向于生成更多样化的声明,但几乎所有模型都比基本的网络搜索在认知多样性方面表现更差。我们发现模型规模对认知多样性有负面影响,而检索增强生成(RAG)则有积极影响,尽管 RAG 的改进因文化背景而异。最后,与传统的知识来源(维基百科)相比,我们发现特定国家的声明更多地反映了英语而非当地语言,这凸显了认知表征方面的差距。