⏶6
不要“过度思考”段落重排序:推理真的必要吗?
发表
由
Nour Jedidi 提交
作者: Nour Jedidi,
Yung-Sung Chuang, James Glass, Jimmy Lin

摘要
随着推理模型在复杂自然语言任务中取得越来越大的成功,信息检索(IR)领域的研究人员已开始探索如何将类似的推理能力整合到基于大语言模型(LLMs)构建的段落重排序器中。这些方法通常利用 LLM 在得出最终相关性预测之前,生成一个显式的、逐步的推理过程。但是,推理真的能提高重排序的准确性吗?在本文中,我们深入探讨了这个问题,通过在相同的训练条件下比较基于推理的逐点重排序器(ReasonRR)与标准的、非推理的逐点重排序器(StandardRR),研究了推理过程的影响,并观察到 StandardRR 通常优于 ReasonRR。基于这一观察,我们进一步研究了推理对于 ReasonRR 的重要性,方法是禁用其推理过程(ReasonRR-无推理),结果发现 ReasonRR-无推理的效果竟然比 ReasonRR 更好。在探究这一结果的原因时,我们的研究发现基于推理的重排序器受到 LLM 推理过程的限制,这使得它倾向于给出极化的相关性得分,从而未能考虑段落的部分相关性,而部分相关性是逐点重排序器准确性的一个关键因素。
我们研究了基于 LLM 构建的段落重排序器推理过程的必要性。 - 我们发现,在相同的训练设置下,推理过程对于逐点重排序没有优势。 - 在 7B 规模下,如果我们禁用推理重排序器的推理能力,我们发现该重排序器变得更有效。 - 我们的分析表明,推理过程会将重排序器推向极端分数,损害其正确排列文档的能力。