⏶114
ReasonRank:通过强大的推理能力赋能段落排序
发表
由
Xinyu Ma 提交
作者: Wenhan Liu,
Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
摘要
基于大型语言模型(LLM)的列表式排序在许多段落排序任务中表现出卓越的性能。随着大型推理模型的发展,许多研究表明,测试时逐步推理有助于提高列表式排序性能。然而,由于推理密集型训练数据稀缺,现有重排序器在许多复杂排序场景中表现不佳,且推理密集型重排序器的排序能力仍未得到充分发展。本文首先提出了一种自动化推理密集型训练数据合成框架,该框架从不同领域获取训练查询和段落,并应用DeepSeek-R1生成高质量的训练标签。设计了一种自洽数据过滤机制以确保数据质量。为了使列表式重排序器具有强大的推理能力,我们进一步提出了一种两阶段后训练方法,包括用于推理模式学习的冷启动监督微调(SFT)阶段和用于进一步增强排序能力的强化学习(RL)阶段。在RL阶段,基于列表式排序的性质,我们设计了一种多视图排序奖励,该奖励比基于排序指标的奖励更有效。大量实验表明,我们训练的推理密集型重排序器ReasonRank显著优于现有基线,并且比逐点重排序器Rank1具有更低的延迟。通过进一步实验,我们的ReasonRank在BRIGHT排行榜上实现了40.6的最新(SOTA)性能\footnote{https://brightbenchmark.github.io/}。我们的代码可在https://github.com/8421BCD/ReasonRank获取。
评论
arXiv Explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/reasonrank-empowering-passage-ranking-with-strong-reasoning-ability
我们的ReasonRank在BRIGHT排行榜上名列前茅。我们的代码已在Github发布。