从智能体轨迹中学习检索
摘要
评论
GitHub: https://github.com/Yuqi-Zhou/LRAT
主页: https://yuqi-zhou.github.io/LRAT-homepage/
集合: https://huggingface.co/collections/Yuqi-Zhou/lrat
LRAT(从智能体轨迹中学习检索)解决了一个根本性的错配问题:现有的检索模型是基于人类搜索行为训练的,但 LLM 智能体的搜索方式大不相同。人类通常发布单个查询并点击结果;而智能体则参与包含查询、浏览动作、拒绝和推理步骤的多步浏览循环。LRAT 直接从这些多步智能体交互中挖掘监督信号,以训练出真正符合智能体搜索方式的检索模型。该工作引入了相关性强度加权,以捕获嵌入在智能体轨迹中的微妙信号。该研究由中国人民大学和中国科学院完成。
为人类用户训练的检索模型假设了简单的“查询-点击”模式。然而,LLM 智能体通过迭代的多轮循环进行搜索——查询、浏览文档、拒绝无关文档、对发现的内容进行推理,并使用优化后的术语重新查询。这种根本性的行为错配意味着标准检索模型对智能体的服务效果不佳,从而催生了这种从智能体与搜索结果的实际交互中学习的新方法。

LRAT 从智能体轨迹中提取三类监督信号:浏览动作(智能体选择阅读的文档,表示正相关)、未浏览拒绝(智能体看到但跳过的文档,表示负相关)以及浏览后推理轨迹(智能体在阅读后对文档质量的内部推理)。这些信号通过相关性强度加权结合在一起,分配分级相关性得分而非二元标签,从而捕获由智能体行为揭示的丰富的文档效用谱。

完整的 LRAT 流程从收集智能体轨迹开始,经过三个监督通道的信号挖掘,最后产生加权相关性标签来训练专门的检索器。由此产生的检索模型能更好地服务于智能体风格的搜索模式,形成良性循环:更好的检索带来更高效的智能体轨迹,进而产生更丰富的训练信号。

干得好!
考虑增加一个基于 LART 微调的 KaLM-Embedding-V2.5 版本。😜
https://huggingface.co/KaLM-Embedding/KaLM-embedding-multilingual-mini-instruct-v2.5
核心见解:
1. 我们发现了以人为中心的检索训练与智能体搜索之间存在的根本性错位,并将从智能体轨迹中学习检索制定为一种新的检索范式。在这种设置下,监督信号源自多步智能体交互,反映了搜索智能体实际使用搜索工具的方式。
在经验分析的启发下,我们提出了 LRAT,一个简单且有效的框架,可从智能体轨迹中挖掘高质量的检索监督信号,为实现智能体对齐的检索器训练迈出了切实的一步。
在域内和跨域深度研究基准上的实验表明,LRAT 能够持续提升跨多种智能体架构和规模的证据检索及端到端智能体性能。我们进一步证明了 LRAT 可以支持自改进的数据飞轮,凸显了 LRAT 在现实场景中的可扩展性价值。