⏶14
LLM 引导的分层检索
发表
由
Nilesh Gupta 提交
作者:
Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon
摘要
AI 生成总结
LATTICE 是一个分层检索框架,利用语义树结构和校准相关性分数的遍历算法,实现了对大型文档集合的高效准确推理。现代信息检索(IR)系统越来越多地被要求回答需要深度推理而非简单关键字或语义匹配的复杂、多方面查询。虽然基于 LLM 的 IR 已显示出巨大潜力,但普遍存在的检索-重排范式继承了基于嵌入的检索的局限性;参数化生成方法难以用新信息进行更新;而将整个语料库置于上下文中的长上下文方法对于大型文档集合来说在计算上是不可行的。为了应对这些挑战,我们引入了 LATTICE,一个分层检索框架,通过在语料库上强加语义树结构,使 LLM 能够以对数搜索复杂度在大型语料库上进行推理和导航。我们的方法包括两个阶段:(1)一个离线阶段,通过自底向上的聚集策略或使用多级摘要的自顶向下的分裂策略将语料库组织成语义层次结构;(2)一个在线遍历阶段,搜索 LLM 在此树中导航。这种 LLM 引导搜索的一个核心挑战是,模型的相关性判断是嘈杂的、上下文相关的,并且不了解层次结构,这使得跨分支和跨级别的比较变得困难。为了克服这一点,我们提出了一种遍历算法,该算法从局部 LLM 输出估计校准的潜在相关性分数,并将它们聚合为全局路径相关性度量。我们的无训练框架在推理密集型 BRIGHT 基准上实现了最先进的零样本性能,在 Recall@100 上提高了高达 9%,在 nDCG@10 上提高了 5%,优于下一个最佳零样本基线。此外,与微调的 SOTA 方法 DIVER-v2 相比,LATTICE 在使用静态语料库进行评估的 BRIGHT 子集上取得了可比的结果。
LATTICE 将检索转化为一个由 LLM 驱动的、在语义脚手架上的导航问题,以实现对大型语料库所需的计算可处理性。
🔗 项目页面:https://nilesh2797.github.io/publications/lattice/
🔗 论文链接:https://arxiv.org/abs/2510.13217
🔗 代码链接:https://github.com/nilesh2797/lattice