⏶2
MultiHal:一个用于基于知识图谱评估LLM幻觉的多语言数据集
发表
由
Ernests Lavrinovics 提交
作者:
Ernests Lavrinovics, Russa Biswas, Katja Hose, Johannes Bjerva
摘要
大型语言模型(LLMs)固有的忠实性和事实性限制,通常被称为幻觉。已经开发了几种基准测试,为以英语为中心的数据集背景下的事实性评估提供了试验平台,这些基准测试依赖于补充信息上下文,如网页链接或文本段落,但忽略了可用的结构化事实资源。为此,知识图谱(KGs)已被确定为幻觉缓解的有用辅助工具,因为它们提供了一种结构化的方式来表示关于实体及其关系的事实,并且语言开销极小。我们弥补了现有幻觉评估基准测试中知识图谱路径和多语言性在事实性语言建模方面的不足,并提出了一个基于知识图谱的多语言、多跳基准测试 MultiHal,用于生成文本评估。作为我们数据收集流程的一部分,我们从开放域知识图谱中挖掘了 14 万条知识图谱路径,并从中修剪掉了嘈杂的路径,整理出一个包含 2.59 万条高质量路径的子集。我们的基线评估显示,在多语言和多个模型上,知识图谱增强检索(KG-RAG)相对于普通问答(vanilla QA)的语义相似性分数绝对提高了约 0.12 到 0.36 点,这表明了知识图谱集成的潜力。我们预计 MultiHal 将促进未来在多个基于图谱的幻觉缓解和事实核查任务方面的研究。
一篇关于扩展当前最先进事实问答(QA)数据集的基准论文,通过挖掘知识图谱(KG)路径来实现。可用于事实性语言建模、幻觉评估、基于 KG 的知识更新、知识更新方法的比较(RAG 与 KG-RAG)。