RARE:面向检索增强生成系统的检索感知鲁棒性评估

发表
Yixiao ZengYixiao Zeng 提交
作者: Yixiao ZengYixiao Zeng, Tiya CaoTianyu Cao, Danqing Wang, Xinran Zhao, Zimeng Qiu, Morteza ZiyadiMorteza Ziyadi, Tongshuang Wu, Lei Li

摘要

检索增强生成(RAG)提升了答案的时效性和事实性。然而,现有评估很少测试这些系统如何应对现实世界的噪音、内部和外部检索上下文之间的冲突或快速变化的事实。我们引入了检索感知鲁棒性评估(RARE),这是一个统一的框架和大规模基准,它在动态、时效性强的语料库上联合测试查询和文档扰动。RARE 的核心特点之一是其知识图谱驱动的合成管道(RARE-Get),它能自动从定制语料库中提取单跳和多跳关系,并无需人工干预地生成多级问题集。借助该管道,我们构建了一个数据集(RARE-Set),涵盖了400份专家级、时效性强的金融、经济和政策文档,以及48,322个问题,这些问题的分布会随着底层来源的变化而演变。为了量化韧性,我们正式化了检索条件下的鲁棒性指标(RARE-Met),它们捕捉了模型在查询、文档或实际检索结果被系统性改变时保持正确或恢复的能力。我们的结果表明,RAG系统对扰动表现出惊人的脆弱性,无论生成器规模或架构如何,文档鲁棒性始终是其最薄弱的环节。在所有领域中,RAG系统在多跳查询上的鲁棒性始终低于单跳查询。
查看 arXiv 页面查看 PDF

评论

Yixiao ZengYixiao Zeng
论文作者
论文提交者
此评论已隐藏。