⏶10
ConvSearch-R1:通过强化学习结合推理,增强对话式搜索的查询重述
发表
由
Siyin Wang 提交
作者:
Changtai Zhu, Siyin Wang, Ruijun Feng, Kai Song, Xipeng Qiu
摘要
会话式搜索系统需要有效处理通常包含歧义、省略和共指的上下文相关查询。会话式查询重述(Conversational Query Reformulation, CQR)通过将这些查询转换为可供现成检索器使用的自包含形式来解决这一挑战。然而,现有 CQR 方法存在两个关键限制:高度依赖昂贵的人工标注或大型语言模型等外部监督,以及重写模型与下游检索器之间的对齐不足。我们提出了 ConvSearch-R1,这是第一个完全消除对外部重写监督依赖的自驱动框架,它通过强化学习直接利用检索信号优化重述。我们新颖的两阶段方法结合了自驱动策略预热(Self-Driven Policy Warm-Up),通过检索引导的自蒸馏解决冷启动问题,然后是检索引导的强化学习(Retrieval-Guided Reinforcement Learning),采用专门设计的排名激励奖励塑形机制,解决了传统检索指标中的稀疏性问题。在 TopiOCQA 和 QReCC 数据集上的大量实验表明,ConvSearch-R1 显著优于现有的最先进方法,在使用较小的 3B 参数模型且没有任何外部监督的情况下,在具有挑战性的 TopiOCQA 数据集上取得了超过 10% 的提升。
ConvSearch-R1