⏶105
当模型说谎时,我们学习:使用 PsiloQA 进行多语言跨度级幻觉检测
发表
由
Vasily Konovalov 提交
作者:
Elisei Rykov, Kseniia Petrushina, Maksim Savkin, Valerii Olisov, Artem Vazhentsev, Kseniia Titova, Alexander Panchenko,
Vasily Konovalov,
Julia Belikova

摘要
AI 生成总结
PsiloQA 是一个具有跨度级幻觉的多语言数据集,通过自动化流水线和基于编码器的模型,增强了 14 种语言的大型语言模型中的幻觉检测。幻觉检测仍然是大型语言模型(LLM)安全可靠部署的一个根本性挑战,尤其是在需要事实准确性的应用中。现有的幻觉基准通常在序列级别上运行,并且仅限于英语,缺乏全面评估所需的精细、多语言监督。在本工作中,我们引入了 PsiloQA,一个大规模的多语言数据集,其中标注了 14 种语言的跨度级别幻觉。PsiloQA 通过一个自动化的三阶段流水线构建:使用 GPT-4o 从维基百科生成问题-答案对,在无上下文设置下诱导不同 LLM 可能产生幻觉的答案,并通过将 GPT-4o 与黄金答案和检索到的上下文进行比较来自动标注幻觉跨度。我们评估了多种幻觉检测方法——包括不确定性量化、基于 LLM 的标记和微调的编码器模型——并表明编码器模型在跨语言方面取得了最强的性能。此外,PsiloQA 证明了有效的跨语言泛化能力,并支持向其他基准的强大知识转移,同时比人工标注的数据集更具成本效益。我们的数据集和结果推动了多语言环境中可扩展、精细幻觉检测的开发。

评论
arXiv 解释了这篇论文的详细信息 👉 https://arxivexplained.com/papers/when-models-lie-we-learn-multilingual-span-level-hallucination-detection-with-psiloqa
幻觉检测仍然是大型语言模型 (LLM) 安全可靠部署的一个基本挑战,尤其是在需要事实准确性的应用中。现有的幻觉基准通常在序列级别运行,并且仅限于英语,缺乏全面评估所需的细粒度、多语言监督。在这项工作中,我们引入了 PsiloQA,一个大规模的多语言数据集,其中包含 14 种语言的跨度级幻觉注释。PsiloQA 通过一个自动化的三阶段流程构建:使用 GPT-4o 从维基百科生成问答对,在无上下文设置下诱导来自不同 LLM 的潜在幻觉答案,并通过将 GPT-4o 与黄金答案和检索到的上下文进行比较来自动注释幻觉跨度。我们评估了广泛的幻觉检测方法——包括不确定性量化、基于 LLM 的标记和微调的编码器模型——并表明编码器模型在跨语言方面取得了最强的性能。此外,PsiloQA 在跨语言泛化方面表现出色,并支持向其他基准的稳健知识转移,同时比人工标注数据集更具成本效益。我们的数据集和结果推动了多语言环境中可扩展、细粒度幻觉检测的发展。