RAG 系统是否存在位置偏差?

发表
Florin CuconasuFlorin Cuconasu 提交
作者: Florin CuconasuFlorin Cuconasu, Simone FiliceSimone Filice, Guy HorowitzGuy Horowitz, Yoelle MaarekYoelle Maarek, Fabrizio SilvestriFabrizio Silvestri

摘要

检索增强生成通过向 LLM 提示中添加从外部语料库检索到的段落来提高 LLM 的准确性。本文研究了位置偏差——LLM 根据信息在提示中的位置赋予不同权重——如何不仅影响 LLM 利用相关段落的能力,还影响其对干扰段落的敏感性。通过在三个基准测试上进行的大量实验,我们展示了最先进的检索管线在尝试检索相关段落时,如何系统地将高度干扰性的段落带到靠前的排名,超过 60% 的查询在前 10 个检索到的段落中至少包含一个高度干扰性的段落。结果是,LLM 位置偏差的影响在实际场景中实际上是微不足道的,尽管在受控设置下相关工作通常报告其非常显著,因为相关段落和干扰性段落都因此受到惩罚。事实上,我们的研究结果表明,试图根据 LLM 位置偏好重新排列段落的复杂策略并不优于随机打乱。
查看 arXiv 页面查看 PDF
RAG 系统是否存在位置偏差?
RAG 系统是否存在位置偏差?

评论

Florin CuconasuFlorin Cuconasu
论文作者
论文提交者

这篇论文展示了在真实的RAG场景中,相关和干扰段落上的位置偏差如何相互补偿,从而对LLM的平均准确性产生微不足道的影响。