⏶2
MoM:用于检索增强生成系统的场景感知文档混合记忆
发表
由
Jihao Zhao 提交

作者:
Jihao Zhao, Zhiyuan Ji, Simin Niu, Hanyu Wang, Feiyu Xiong, Zhiyu Li

摘要
AI 生成总结
MoM 框架通过将文本处理从被动分块转变为主动理解来增强 RAG,使 LLM 能够生成结构化的文档记忆,并使 SLM 能够发展出类似人类的阅读能力。传统的 RAG(检索增强生成)范式,在响应接收到的查询时,通常需要理解相关的文本块,但这会限制知识内化的深度和推理能力。为了解决这一限制,我们的研究将 RAG 中的文本处理从被动分块转变为主动理解,并将此过程定义为文档内存提取,目标是模拟人类阅读过程中的认知过程。在此基础上,我们提出了场景感知文档内存混合(MoM)框架,该框架旨在高效处理来自多个域的文档,并训练小型语言模型(SLM)来获得主动探索和构建文档内存的能力。MoM 首先指示大型语言模型(LLM)模拟领域专家来生成文档的逻辑大纲,从而指导结构化分块和核心内容提取。它采用多路径采样和多视角评估机制,特别设计了代表块清晰度和提取完整性的综合指标来选择最佳文档内存。此外,为了在 SLM 训练过程中注入更深层的人类阅读能力,我们采用反向推理策略,从高质量结果推导出精炼的专家思维路径。最后,利用 MoM 生成的各种形式的内容,我们开发了一个三层文档内存检索机制,该机制基于我们从概率建模角度进行的理论证明。在三个不同领域的广泛实验结果表明,MoM 框架不仅解决了现有 RAG 系统中的文本分块挑战,为 LLM 提供了语义完整的文档内存,而且还为 SLM 实现了以人为中心智能文本处理铺平了道路。
🧠 灵感
1️⃣ 提出主动记忆提取:我们主张将 RAG 中的文本处理从被动文本分块转变为主动记忆提取。通过模拟领域专家,我们首先实现对文档的整体宏观理解,然后构建结构化的文档记忆。
2️⃣ 定义结构化文档记忆:我们将文档记忆正式定义为一个包含宏观逻辑大纲、高度浓缩的核心内容和语义连贯的原子块的三元组。
3️⃣ 构建 MoM 框架和 CoM:我们设计了 MoM 框架,它通过多路径采样和多维度评估机制生成高质量的记忆。此外,我们采用逆向推理策略来构建 CoM,从而赋予 SLM 复杂的认知能力。
4️⃣ 设计三层检索机制并提供理论证明:我们开发了一种包含逻辑大纲、核心内容和原始文本的三层文档记忆检索机制。从概率建模的角度,我们从理论上证明了该策略相比于在检索前融合信息,可以更有效地减少信息损失并实现更精确的知识定位。