⏶84
视觉引导分块:您所需要的一切——通过多模态文档理解增强 RAG
发表
由
Vishesh Tripathi 提交

作者:
Vishesh Tripathi,
Tanmay Odapally,
Indraneel Das,
Uday Allu, Biddwan Ahmed



摘要
检索增强生成(RAG)系统彻底改变了信息检索和问答,但传统的基于文本的分块方法在处理复杂文档结构、多页表格、嵌入式图片以及跨页边界的上下文依赖性时面临困难。我们提出了一种新颖的多模态文档分块方法,该方法利用大型多模态模型(LMMs)批量处理PDF文档,同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次处理文档,并保留跨批次上下文,从而能够准确处理跨越多页的表格、嵌入式视觉元素和过程性内容。我们在一个精心策划的PDF文档数据集上,使用手动创建的查询对我们的方法进行了评估,结果表明分块质量和下游RAG性能均有所提升。与传统的普通RAG系统相比,我们的视觉引导方法取得了更高的准确性,定性分析显示其在文档结构和语义连贯性方面具有卓越的保留能力。
检索增强生成(RAG)系统彻底改变了信息检索和问答,但传统的基于文本的块化方法难以处理复杂的文档结构、多页表格、嵌入式图表以及跨页边界的上下文依赖。我们提出了一种新颖的多模态文档块化方法,该方法利用大型多模态模型(LMMs)批量处理PDF文档,同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次处理文档,并保留跨批次上下文,从而能够准确处理跨多页的表格、嵌入式视觉元素和程序内容。我们通过一个包含手动制作查询的精选PDF文档数据集评估了我们的方法,结果表明其在块质量和下游RAG性能方面均有所改进。与传统的普通RAG系统相比,我们的视觉引导方法实现了更高的准确性,定性分析显示其在文档结构和语义连贯性方面有更优异的保留。