REARANK:通过强化学习的推理重排序代理

发表
le.zhangle.zhang 提交
作者: le.zhangLe Zhang, Bo Wang, Xipeng Qiu, Siva Reddy, Aishwarya Agrawal

摘要

我们提出了 REARANK,这是一种基于大型语言模型(LLM)的列表式推理重排序智能体。REARANK 在重排序之前进行显式推理,显著提高了性能和可解释性。利用强化学习和数据增强,REARANK 在流行的信息检索基准上实现了对基线模型的显著改进,尤其值得一提的是,仅需要 179 个标注样本。基于 Qwen2.5-7B 构建,我们的 REARANK-7B 在领域内和领域外基准上都展现了与 GPT-4 媲美的性能,甚至在推理密集的 BRIGHT 基准上超越了 GPT-4。这些结果强调了我们方法的有效性,并突显了强化学习如何在重排序中增强 LLM 的推理能力。
查看 arXiv 页面查看 PDF

评论

le.zhangle.zhang
论文作者
论文提交者

我们提出了 Rearank,一个基于大型语言模型 (LLM) 的列表式推理重排序智能体。Rearank 在重排序之前进行显式推理,显著提升了性能和可解释性。通过利用强化学习和数据增强,Rearank 在流行的信息检索基准上取得了相对于基线模型的显著改进,尤其值得注意的是它仅需要 179 个标注样本。我们的 Rearank-7B 构建于 Qwen2.5-7B 之上,在域内和域外基准上都展现了与 GPT-4 媲美的性能,甚至在推理密集型 BRIGHT 基准上超越了 GPT-4。这些结果强调了我们方法的有效性,并突出了强化学习如何增强 LLM 在重排序中的推理能力。代码可在以下链接获取:https://github.com/lezhang7/Rearank。

le.zhangle.zhang
论文作者
论文提交者

模型已发布至:https://huggingface.co/le723z/Rearank-7B