⏶33
RAG-Anything:全能型 RAG 框架
发表
由
Xubin Ren 提交

作者: Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang, Chao Huang
摘要
AI 生成总结
RAG-Anything 是一个统一的框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂基准测试中优于现有方法。检索增强生成(RAG)已成为一种基本范式,用于将大型语言模型扩展到其静态训练限制之外。然而,当前RAG能力与现实世界信息环境之间存在严重的不匹配。现代知识存储库本质上是多模态的,包含文本内容、视觉元素、结构化表格和数学表达式的丰富组合。然而,现有的RAG框架仅限于文本内容,在处理多模态文档时会产生根本性的差距。我们提出了RAG-Anything,一个统一的框架,可以实现跨所有模态的全面知识检索。我们的方法将多模态内容重新概念化为相互连接的知识实体,而不是孤立的数据类型。该框架引入了双图构建,以在统一的表示中捕获跨模态关系和文本语义。我们开发了跨模态混合检索,结合了结构化知识导航和语义匹配。这使得在相关证据跨越多种模态的异构内容上进行有效推理成为可能。RAG-Anything在具有挑战性的多模态基准上表现出卓越的性能,与最先进的方法相比取得了显著的改进。在传统方法失败的长文档上,性能提升尤为显著。我们的框架为多模态知识访问建立了一个新范式,消除了限制当前系统的架构碎片化。我们的框架已开源:https://github.com/HKUDS/RAG-Anything。
本文提出了 RAG-Anything,一个统一的框架,能够跨所有模态实现全面的知识检索。