⏶3
在复杂检索任务上评估信息检索模型的基准
发表
由
Julian Killingback 提交
作者:
Julian Killingback, Hamed Zamani
摘要
AI 生成总结
一项复杂检索任务的基准测试表明,即使是最先进的模型也难以实现高质量检索,并且基于大型语言模型的查询扩展并不能持续提高性能。大型语言模型 (LLM) 是用于文本任务的令人难以置信且多功能的工具,它们实现了无数以前无法想象的应用。相比之下,检索模型尚未出现如此强大的通用模型。为了实现这一目标,检索模型必须能够执行复杂的检索任务,其中查询包含自然语言中的多个部分、约束或要求。这些任务代表了从现有、常用评估集中使用的简单、单一方面查询的自然进展。复杂的查询自然会出现,因为人们期望搜索系统能够处理更具体、通常更雄心勃勃的信息请求,正如人们使用基于 LLM 的信息系统的方式所证明的那样。尽管人们越来越希望检索模型扩展其在复杂检索任务中的能力,但评估检索模型在全面、多样化的复杂任务集上的能力资源有限。现有的少数资源范围有限,并且经常缺乏现实的设置,这使得很难了解检索模型在复杂现实世界检索任务上的真实能力。为了解决这一不足并促进下一代检索模型的创新,我们构建了一套多样化且现实的复杂检索任务,并对一组代表性的最先进检索模型进行了基准测试。此外,我们还探索了基于 LLM 的查询扩展和重写对检索质量的影响。我们的结果表明,即使是最好的模型在所有任务上的最高平均 nDCG@10 仅为 0.346,R@100 仅为 0.587,也难以产生高质量的检索结果。尽管 LLM 增强可以帮助较弱的模型,但最强的模型在所有重写技术的所有指标上的性能都有所下降。
本文为复杂的检索任务提出了一个新的信息检索基准,这些任务具有多个需求或方面。随着大型语言模型 (LLM) 的普及,用户期望检索系统能够处理复杂的信息需求,但到目前为止,检索模型在各种复杂的检索任务上的表现尚不清楚。本文表明,即使是先进的检索模型在复杂的检索任务上也举步维艰,这表明需要更多的研究来开发强大且可泛化的复杂任务检索模型。