⏶8
可扩展的生成模型上下文内排序
发表
由
Nilesh Gupta 提交
作者:
Nilesh Gupta, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar, Inderjit Dhillon, Felix Yu
摘要
AI 生成总结
BlockRank 通过强制执行文档间块稀疏性并增强查询-文档相关性来优化上下文排名,从而提高大规模信息检索的效率和可扩展性。情境内排序 (ICR) 是一种新兴的信息检索 (IR) 范式,它通过直接将任务描述、候选文档和查询纳入模型的输入提示中,并指示 LLM 识别相关文档,来利用 LLM 的情境理解能力。虽然这种方法有效,但效率是该范式的一个重大挑战,尤其是在候选列表由于注意力操作与上下文长度的二次方/超线性扩展而增长时。为此,本文首先识别了为 ICR 微调的 LLM 注意力中固有且可利用的结构:(1)文档块间稀疏性:注意力在每个文档块内部是密集的,但在上下文中不同文档之间是稀疏的;以及(2)查询-文档块相关性:某些查询 token 在中间层对文档块的注意力分数与该文档的实际相关性高度相关。基于这些观察,我们引入了 BlockRank (Blockwise In-context Ranking),一种新颖的方法,通过以下方式调整 LLM 中的注意力操作:(a) 在架构上强制执行观察到的文档块间稀疏性,将注意力复杂度从二次方降低到线性,而不会损失性能;以及 (b) 在微调过程中使用辅助对比训练目标来优化真实相关文档的查询-文档块相关性,从而提高注意力中的检索性能。在 BEIR、MSMarco 和 NQ 上使用 Mistral-7B 的实验表明,FLARE Mistral 的性能与现有的 SOTA 列表式排序器和受控微调基线相当或更优,同时在推理时效率显著提高(对于 100 个 MSMarco 文档情境内,效率提高 4.7 倍),并且能够优雅地扩展到长上下文的短列表,在情境内约 500 个文档(约 100K 上下文长度)的情况下,在不到一秒的时间内完成,为 ICR 提供了一个可扩展且有效的解决方案。
我们提出“基于生成模型的上下文排名”,这是通往检索原生 LLM 的一步——即模型能够内部理解和优化检索,而不是将其作为外部提示级别的任务。