ReasonRank:通过强大的推理能力赋能段落排序

发表
Xinyu MaXinyu Ma 提交
作者: Wenhan Liu, Xinyu MaXinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou

摘要

基于大型语言模型(LLM)的列表式排序在许多段落排序任务中表现出卓越的性能。随着大型推理模型的发展,许多研究表明,测试时逐步推理有助于提高列表式排序性能。然而,由于推理密集型训练数据稀缺,现有重排序器在许多复杂排序场景中表现不佳,且推理密集型重排序器的排序能力仍未得到充分发展。本文首先提出了一种自动化推理密集型训练数据合成框架,该框架从不同领域获取训练查询和段落,并应用DeepSeek-R1生成高质量的训练标签。设计了一种自洽数据过滤机制以确保数据质量。为了使列表式重排序器具有强大的推理能力,我们进一步提出了一种两阶段后训练方法,包括用于推理模式学习的冷启动监督微调(SFT)阶段和用于进一步增强排序能力的强化学习(RL)阶段。在RL阶段,基于列表式排序的性质,我们设计了一种多视图排序奖励,该奖励比基于排序指标的奖励更有效。大量实验表明,我们训练的推理密集型重排序器ReasonRank显著优于现有基线,并且比逐点重排序器Rank1具有更低的延迟。通过进一步实验,我们的ReasonRank在BRIGHT排行榜上实现了40.6的最新(SOTA)性能\footnote{https://brightbenchmark.github.io/}。我们的代码可在https://github.com/8421BCD/ReasonRank获取。
查看 arXiv 页面查看 PDF

评论

Xinyu MaXinyu Ma
论文作者
论文提交者

我们的ReasonRank在BRIGHT排行榜上名列前茅。我们的代码已在Github发布。

f0ab176b354137cd56d5ace8fa7a13c4.png

KABIKABI

有趣的工作!