⏶1
RAGCap-Bench:用于评估 LLM 在代理检索增强生成系统中的能力的基准测试
发表
由
Zhang Chen 提交
作者: Jingru Lin, Chen Zhang, Stephen Y. Liu, Haizhou Li
摘要
AI 生成总结
RAGCap-Bench 评估代理式 RAG 工作流程中的中间任务,强调了增强这些能力对提高端到端性能的重要性。检索增强生成(RAG)通过动态检索外部信息来缓解大型语言模型(LLM)的关键限制——例如事实错误、过时知识和幻觉。最近的研究通过智能体 RAG 系统扩展了这一范式,其中 LLM 作为智能体,通过迭代计划、检索和推理来处理复杂查询。然而,这些系统在处理多跳问题时仍然存在困难,并且其中间推理能力仍未得到充分探索。为了解决这个问题,我们提出了 RAGCap-Bench,这是一个能力导向的基准,用于对智能体 RAG 工作流程中的中间任务进行细粒度评估。我们分析了最先进系统的输出,以识别常见的任务以及执行这些任务所需的核心能力,然后构建了一个典型的 LLM 错误分类,以设计有针对性的评估问题。实验表明,“慢思考”模型在 RAGCap 性能更强的情况下,实现了更好的端到端结果,这凸显了该基准的有效性以及增强这些中间能力的重要性。
检索增强生成 (RAG) 通过动态检索外部信息来减轻大型语言模型 (LLM) 的关键限制——例如事实错误、过时知识和幻觉。最近的工作通过 Agentic RAG 系统扩展了这一范式,其中 LLM 作为代理,迭代地规划、检索和推理复杂查询。然而,这些系统在处理多跳问题时仍然遇到困难,其中间推理能力仍未得到充分探索。为了解决这个问题,我们提出了 RAGCap-Bench,这是一个面向能力的基准,用于对 Agentic RAG 工作流程中的中间任务进行细粒度评估。我们分析了最先进系统的输出,以识别常见任务和执行这些任务所需的核心能力,然后构建了一个典型 LLM 错误分类,以设计有针对性的评估问题。实验表明,“慢思考”模型,具有更强的 RAGCap 性能,实现了更好的端到端结果,强调了基准的有效性以及增强这些中间能力的重要性。