淹没在文档中:扩展重排序器推断的后果

11月18日发表
04月12日由 Andrew DrozdovAndrew Drozdov 提交
作者: JacobMathew Jacob, Erik Lindgren, Matei ZahariaMatei Zaharia, Michael CarbinMichael Carbin, Omar KhattabOmar Khattab, Andrew DrozdovAndrew Drozdov

摘要

重排序器,通常是交叉编码器,经常被用于对由更廉价的初始信息检索系统检索到的文档进行重新评分。这是因为,尽管重排序器很昂贵,但人们通常认为它们更有效。我们通过测量重排序器在完整检索(而不仅仅是重新评分第一阶段检索结果)中的性能,来挑战这一假设。我们的实验揭示了一个令人惊讶的趋势:当对越来越多的文档进行评分时,最好的现有重排序器会提供递减的收益,并且实际上在超过一定限度后会降低质量。事实上,在这种情况下,重排序器经常会给与查询没有词汇或语义重叠的文档分配高分。我们希望我们的发现将促进未来改进重排序的研究。

评论

Andrew DrozdovAndrew Drozdov
论文作者
论文提交者

重排序器(交叉编码器)和检索器(嵌入)通常源自相同的架构,但重排序器被认为更准确,因为它们联合编码查询和文档,而不是独立处理它们。在这项工作中,我们发现了关于这种直觉的两个令人惊讶的结果:1. 重排序最初有帮助,但最终重排序太多文档会导致质量下降;2. 在重排序器和检索器之间的公平匹配中,我们重排序整个数据集,重排序器的准确性低于检索器。在我们的论文中,我们详细介绍了跨学术数据集和企业数据集的大量实验,并包括了一些结果,这些结果表明,当通过重排序扩展推理时,使用 LLM 进行列表式重排序比交叉编码器更稳健。

Tom AarsenTom Aarsen

非常有趣,不错的工作 👏

Matt BarrMatt Barr

我们维护了一些特定领域的混合搜索系统,这篇论文向我们展示了我们需要关注优化交叉编码器阶段的 top-k。有趣的工作——我有点失望没有使用更多的 CE 模型(混合面包)。