⏶9
LUMINA:使用上下文知识信号检测 RAG 系统中的幻觉
发表
由
Min-Hsuan Yeh 提交

作者: Min-Hsuan Yeh, Yixuan Li, Tanwi Mallick
摘要
AI 生成总结
LUMINA 通过量化外部上下文利用和内部知识利用来检测 RAG 系统中的幻觉,在基准测试上优于现有方法。检索增强生成(RAG)旨在通过将响应固定在检索到的文档上来减轻大型语言模型(LLM)的幻觉。然而,基于 RAG 的 LLM 即使在提供了正确且充分的上下文时仍然会产生幻觉。越来越多的研究表明,这源于模型使用外部上下文与其内部知识之间的不平衡,并且有几种方法试图量化这些信号以检测幻觉。然而,现有方法需要大量的超参数调整,限制了它们的通用性。我们提出了 LUMINA,一个新颖的框架,通过上下文知识信号检测 RAG 系统中的幻觉:外部上下文利用通过分布距离量化,而内部知识利用通过跟踪预测令牌在 Transformer 层中的演变来衡量。我们进一步引入了一个用于统计验证这些测量的框架。在常见的 RAG 幻觉基准和四个开源 LLM 上的实验表明,LUMINA 在 HalluRAG 上取得了持续高的 AUROC 和 AUPRC 分数,在利用率方面优于先前的方法,最高可提高 +13% AUROC。此外,LUMINA 在检索质量和模型匹配的放松假设下仍然保持鲁棒性,提供了有效性和实用性。
新论文:LUMINA:使用上下文知识信号检测 RAG 系统中的幻觉
RAG 系统仍然可能产生幻觉,这通常是由于 LLM 的内部知识与检索到的外部上下文之间的冲突。因此,量化 LLM 在生成响应时使用内部知识和外部上下文的程度可用于检测幻觉。
在本文中:
我们提出了 LUMINA,这是一种新颖的方法,用于量化基于 RAG 的幻觉检测中外部上下文和内部知识的利用情况。
我们提出了一个框架来统计验证 LUMINA,表明它们与预期结果一致。
我们进行了广泛的实验,并表明 LUMINA 在幻觉检测方面优于基于分数和基于学习的方法,确立了新的最先进水平。