从智能体轨迹中学习检索

发表
Sunhao DaiSunhao Dai 提交
作者: Yuqi Zhou, Sunhao DaiSunhao Dai, Changle Qu, Liang Pang, Jun Xu, Ji-Rong Wen

摘要

AI 生成总结
智能体搜索的检索模型应直接利用智能体交互数据进行训练,采用一种从多步智能体轨迹中挖掘监督信号并通过加权优化整合相关性强度的全新范式。
信息检索(IR)系统传统上是为人类用户设计和训练的,排序学习方法严重依赖点击量和停留时间等大规模人类交互日志。然而,随着由大语言模型(LLM)驱动的搜索智能体的迅速兴起,检索结果越来越多地被智能体而非人类消费,并作为核心组件嵌入到多轮推理和动作循环中。在这种背景下,在以人类为中心的假设下训练的检索模型与智能体发出查询和消费结果的方式之间存在根本性的不匹配。在这项工作中,我们主张智能体搜索的检索模型应直接从智能体交互数据中训练。我们将“从智能体轨迹中学习检索”作为一种新的训练范式引入,其中监督信号源自多步智能体交互。通过对搜索智能体轨迹的系统分析,我们识别出了揭示文档效用的关键行为信号,包括浏览动作、未浏览拒绝和浏览后的推理轨迹。在这些见解的指导下,我们提出了 LRAT,这是一个简单而有效的框架,它从智能体轨迹中挖掘高质量的检索监督信号,并通过加权优化整合相关强度。在领域内和跨领域深度研究基准上的大量实验表明,使用 LRAT 训练的检索器在各种智能体架构和规模上都能持续提高证据召回率、端到端任务成功率和执行效率。我们的结果强调了智能体轨迹作为一种实用且可扩展的监督源,为智能体搜索时代的检索指明了一个充满前景的方向。
查看 arXiv 页面查看 PDF

评论

Sunhao DaiSunhao Dai
论文作者
论文提交者

核心见解:
1. 我们发现了以人为中心的检索训练与智能体搜索之间存在的根本性错位,并将从智能体轨迹中学习检索制定为一种新的检索范式。在这种设置下,监督信号源自多步智能体交互,反映了搜索智能体实际使用搜索工具的方式。

  1. 在经验分析的启发下,我们提出了 LRAT,一个简单且有效的框架,可从智能体轨迹中挖掘高质量的检索监督信号,为实现智能体对齐的检索器训练迈出了切实的一步。

  2. 在域内和跨域深度研究基准上的实验表明,LRAT 能够持续提升跨多种智能体架构和规模的证据检索及端到端智能体性能。我们进一步证明了 LRAT 可以支持自改进的数据飞轮,凸显了 LRAT 在现实场景中的可扩展性价值。

Mishig DavaadorjMishig Davaadorj
LRAT:从智能体轨迹中学习检索

LRAT(从智能体轨迹中学习检索)解决了一个根本性的错配问题:现有的检索模型是基于人类搜索行为训练的,但 LLM 智能体的搜索方式大不相同。人类通常发布单个查询并点击结果;而智能体则参与包含查询、浏览动作、拒绝和推理步骤的多步浏览循环。LRAT 直接从这些多步智能体交互中挖掘监督信号,以训练出真正符合智能体搜索方式的检索模型。该工作引入了相关性强度加权,以捕获嵌入在智能体轨迹中的微妙信号。该研究由中国人民大学和中国科学院完成。

核心思想

为人类用户训练的检索模型假设了简单的“查询-点击”模式。然而,LLM 智能体通过迭代的多轮循环进行搜索——查询、浏览文档、拒绝无关文档、对发现的内容进行推理,并使用优化后的术语重新查询。这种根本性的行为错配意味着标准检索模型对智能体的服务效果不佳,从而催生了这种从智能体与搜索结果的实际交互中学习的新方法。

HumanVsAgent

方法/路径

LRAT 从智能体轨迹中提取三类监督信号:浏览动作(智能体选择阅读的文档,表示正相关)、未浏览拒绝(智能体看到但跳过的文档,表示负相关)以及浏览后推理轨迹(智能体在阅读后对文档质量的内部推理)。这些信号通过相关性强度加权结合在一起,分配分级相关性得分而非二元标签,从而捕获由智能体行为揭示的丰富的文档效用谱。

TrajectorySignals

结果

完整的 LRAT 流程从收集智能体轨迹开始,经过三个监督通道的信号挖掘,最后产生加权相关性标签来训练专门的检索器。由此产生的检索模型能更好地服务于智能体风格的搜索模式,形成良性循环:更好的检索带来更高效的智能体轨迹,进而产生更丰富的训练信号。

LRATPipeline

Xinping ZhaoXinping Zhao

干得好!
考虑增加一个基于 LART 微调的 KaLM-Embedding-V2.5 版本。😜
https://huggingface.co/KaLM-Embedding/KaLM-embedding-multilingual-mini-instruct-v2.5

Sunhao DaiSunhao Dai
论文作者
论文提交者

谢谢!我们将在接下来的工作中尝试 KaLM-Embedding-V2.5。