视觉引导分块:您所需要的一切——通过多模态文档理解增强 RAG

发表
Vishesh TripathiVishesh Tripathi 提交
作者: Vishesh TripathiVishesh Tripathi, Tanmay OdapallyTanmay Odapally, Indraneel DasIndraneel Das, Uday AlluUday Allu, Biddwan Ahmed

摘要

检索增强生成(RAG)系统彻底改变了信息检索和问答,但传统的基于文本的分块方法在处理复杂文档结构、多页表格、嵌入式图片以及跨页边界的上下文依赖性时面临困难。我们提出了一种新颖的多模态文档分块方法,该方法利用大型多模态模型(LMMs)批量处理PDF文档,同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次处理文档,并保留跨批次上下文,从而能够准确处理跨越多页的表格、嵌入式视觉元素和过程性内容。我们在一个精心策划的PDF文档数据集上,使用手动创建的查询对我们的方法进行了评估,结果表明分块质量和下游RAG性能均有所提升。与传统的普通RAG系统相比,我们的视觉引导方法取得了更高的准确性,定性分析显示其在文档结构和语义连贯性方面具有卓越的保留能力。
查看 arXiv 页面查看 PDF

评论

Vishesh TripathiVishesh Tripathi
论文作者
论文提交者

检索增强生成(RAG)系统彻底改变了信息检索和问答,但传统的基于文本的块化方法难以处理复杂的文档结构、多页表格、嵌入式图表以及跨页边界的上下文依赖。我们提出了一种新颖的多模态文档块化方法,该方法利用大型多模态模型(LMMs)批量处理PDF文档,同时保持语义连贯性和结构完整性。我们的方法以可配置的页面批次处理文档,并保留跨批次上下文,从而能够准确处理跨多页的表格、嵌入式视觉元素和程序内容。我们通过一个包含手动制作查询的精选PDF文档数据集评估了我们的方法,结果表明其在块质量和下游RAG性能方面均有所改进。与传统的普通RAG系统相比,我们的视觉引导方法实现了更高的准确性,定性分析显示其在文档结构和语义连贯性方面有更优异的保留。

Screenshot 2025-06-23 at 11.15.40 AM.png

Logan BoltonLogan Bolton

很高兴看到更多关注多模态RAG的论文。

ChCh

如果你要使用 Gemini 2.5,那么你不需要分块,可以直接传入整个文件进行问答

Akarsh 48Akarsh 48

好问题

Vishesh TripathiVishesh Tripathi
论文作者
论文提交者

关于 Gemini 2.5 Pro 的全文档处理能力,这个观点提得很好!您说得对,它确实可以直接处理整个文件。

不过,对于 Yellow.ai 的 RAG 系统而言,分块处理在成本和步骤上更合理。考虑到我们庞大的文档库和高查询量,每次查询都将完整文档发送给 Gemini 2.5 Pro 会非常昂贵。

通过预先创建高质量的分块并使用检索,我们可以在规模化时获得更高的成本效率和更快的响应。最初的分块投入在服务数千个跨多文档的查询时会得到回报。

不过还是感谢您的建议——直接处理在某些特定用例中肯定会非常有效!