使用冲突证据的检索增强生成

04月17日发表
04月18日由 Han WangHan Wang 提交
作者: Han WangHan Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal

摘要

大型语言模型(LLM)智能体越来越多地采用检索增强生成(RAG)来提高其响应的事实性。然而,在实践中,这些系统通常需要处理模糊的用户查询和来自多个来源的潜在冲突信息,同时还要抑制来自嘈杂或不相关文档的不准确信息。先前的工作通常孤立地研究和解决这些挑战,一次只考虑一个方面,例如处理歧义或对噪声和错误信息的鲁棒性。我们转而同时考虑多个因素,提出(i)RAMDocs(文档中具有歧义和错误信息的检索),一个新的数据集,模拟复杂和真实场景,其中包含用户查询的冲突证据,包括歧义、错误信息和噪声;以及(ii)MADAM-RAG,一种多智能体方法,其中 LLM 智能体就答案的优点进行多轮辩论,允许聚合器整理与消除歧义的实体相对应的响应,同时丢弃错误信息和噪声,从而共同处理各种冲突来源。我们使用封闭和开源模型在 AmbigDocs 上证明了 MADAM-RAG 的有效性——AmbigDocs 需要呈现模糊查询的所有有效答案——在强大的 RAG 基线上提高了高达 11.40%,在 FaithEval 上——FaithEval 需要抑制错误信息——我们使用 Llama3.3-70B-Instruct 提高了高达 15.80%(绝对值)。此外,我们发现 RAMDocs 对现有 RAG 基线(Llama3.3-70B-Instruct 仅获得 32.60 的精确匹配分数)构成了挑战。虽然 MADAM-RAG 开始解决这些冲突因素,但我们的分析表明,当增加支持证据和错误信息的不平衡程度时,仍然存在相当大的差距。

评论

Han WangHan Wang
论文作者
论文提交者

TL;DR 我们介绍了 RAMDocs,这是一个具有歧义、错误信息和噪声的具有挑战性的数据集,以反映真实世界检索的复杂性。 我们还提出了 MADAM-RAG,一个多代理框架,可以跨来源辩论和聚合证据。

RAMDocs: https://huggingface.co/datasets/HanNight/RAMDocs

代码: https://github.com/HanNight/RAMDocs