⏶28
迈向通用检索增强生成的混合模态检索
发表
由
Chenghao Zhang 提交

作者: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
摘要
AI 生成总结
Nyx,一个统一的混合模态检索器,通过检索和推理混合模态数据来增强视觉语言生成,在实际场景中优于现有的RAG系统。检索增强生成(RAG)已成为增强大型语言模型(LLMs)的强大范式,通过从外部语料库检索相关文档。然而,现有的RAG系统主要关注单模态文本文档,在查询和文档可能包含混合模态(如文本和图像)的真实场景中往往表现不佳。在本文中,我们解决了通用检索增强生成(URAG)的挑战,它涉及检索和推理混合模态信息,以改进视觉语言生成。为此,我们提出了Nyx,一个为URAG场景量身定制的统一混合模态到混合模态检索器。为了缓解真实混合模态数据的稀缺性,我们引入了一个四阶段的自动化生成和过滤流程,利用网络文档构建NyxQA,这是一个包含多样化的混合模态问答对的数据集,更能反映真实世界的信息需求。基于这个高质量的数据集,我们采用了一个两阶段的Nyx训练框架:首先,我们在NyxQA以及各种开源检索数据集上进行预训练,然后使用下游视觉语言模型(VLMs)的反馈进行监督微调,以使检索输出与生成偏好保持一致。实验结果表明,Nyx不仅在标准的纯文本RAG基准测试上表现具有竞争力,而且在更通用和真实的URAG设置中表现出色,显著提高了视觉语言任务的生成质量。
我们提出了 Nyx,一个为 URAG 场景量身定制的统一混合模态检索器,并构建了 NyxQA,一个大规模的混合模态 QA 数据集。我们的框架包括: