⏶41
NodeRAG:用异构节点构建基于图的RAG
发表
由
Tianyang Xu 提交
作者: Tianyang Xu,
Haojie Zheng,
Chengze Li, Haoxiang Chen,
Yixin Liu, Ruoxi Chen, Lichao Sun

摘要
检索增强生成(RAG)使大型语言模型能够访问外部和私有语料库,从而在特定领域实现事实一致的响应。通过利用语料库的内在结构,基于图的 RAG 方法通过构建知识图索引并利用图的结构性质进一步丰富了这一过程。然而,当前基于图的 RAG 方法很少优先考虑图结构的设计。设计不足的图不仅阻碍了各种图算法的无缝集成,还会导致工作流程不一致和性能下降。为了进一步释放图在 RAG 中的潜力,我们提出了 NodeRAG,一个以图为中心的框架,引入了异构图结构,使基于图的方法能够无缝且整体地集成到 RAG 工作流程中。通过与 LLM 的能力紧密结合,该框架确保了完全 cohesive 且高效的端到端流程。通过广泛的实验,我们证明 NodeRAG 在索引时间、查询时间和存储效率方面,以及在多跳基准和开放式头对头评估中提供卓越的问答性能方面,都优于以前的方法,包括 GraphRAG 和 LightRAG,且检索令牌最少。我们的 GitHub 仓库可以在 https://github.com/Terry-Xu-666/NodeRAG 找到。
检索增强生成 (RAG) 使大型语言模型能够访问外部和私有语料库,从而在特定领域实现事实一致的响应。通过利用语料库的内在结构,基于图的 RAG 方法通过构建知识图索引并利用图的结构性质进一步丰富了这一过程。然而,当前的基于图的 RAG 方法很少优先考虑图结构的设计。设计不足的图不仅阻碍了各种图算法的无缝集成,还会导致工作流程不一致和性能下降。为了进一步释放图在 RAG 中的潜力,我们提出了 NodeRAG,这是一个以图为中心的框架,引入了异构图结构,使基于图的方法能够无缝且整体地集成到 RAG 工作流程中。通过与 LLM 的能力紧密结合,该框架确保了完全连贯和高效的端到端流程。通过广泛的实验,我们证明 NodeRAG 在索引时间、查询时间和存储效率方面,以及在多跳基准测试和开放式人头对人评估中以最少的检索 token 提供卓越的问答性能方面,都表现出优于先前方法(包括 GraphRAG 和 LightRAG)的优势。