⏶8

可扩展的生成模型上下文内排序

10月06日发表

10月08日由 Nilesh Gupta 提交

作者: Nilesh Gupta, Chong You, Srinadh Bhojanapalli, Sanjiv Kumar, Inderjit Dhillon, Felix Yu

摘要

AI 生成总结

BlockRank 通过强制执行文档间块稀疏性并增强查询-文档相关性来优化上下文排名，从而提高大规模信息检索的效率和可扩展性。

情境内排序 (ICR) 是一种新兴的信息检索 (IR) 范式，它通过直接将任务描述、候选文档和查询纳入模型的输入提示中，并指示 LLM 识别相关文档，来利用 LLM 的情境理解能力。虽然这种方法有效，但效率是该范式的一个重大挑战，尤其是在候选列表由于注意力操作与上下文长度的二次方/超线性扩展而增长时。为此，本文首先识别了为 ICR 微调的 LLM 注意力中固有且可利用的结构：（1）文档块间稀疏性：注意力在每个文档块内部是密集的，但在上下文中不同文档之间是稀疏的；以及（2）查询-文档块相关性：某些查询 token 在中间层对文档块的注意力分数与该文档的实际相关性高度相关。基于这些观察，我们引入了 BlockRank (Blockwise In-context Ranking)，一种新颖的方法，通过以下方式调整 LLM 中的注意力操作：(a) 在架构上强制执行观察到的文档块间稀疏性，将注意力复杂度从二次方降低到线性，而不会损失性能；以及 (b) 在微调过程中使用辅助对比训练目标来优化真实相关文档的查询-文档块相关性，从而提高注意力中的检索性能。在 BEIR、MSMarco 和 NQ 上使用 Mistral-7B 的实验表明，FLARE Mistral 的性能与现有的 SOTA 列表式排序器和受控微调基线相当或更优，同时在推理时效率显著提高（对于 100 个 MSMarco 文档情境内，效率提高 4.7 倍），并且能够优雅地扩展到长上下文的短列表，在情境内约 500 个文档（约 100K 上下文长度）的情况下，在不到一秒的时间内完成，为 ICR 提供了一个可扩展且有效的解决方案。

查看 arXiv 页面查看 PDF

Nilesh Gupta

论文作者

论文提交者

我们提出“基于生成模型的上下文排名”，这是通往检索原生 LLM 的一步——即模型能够内部理解和优化检索，而不是将其作为外部提示级别的任务。

Tongke Nee

您好！首先，非常感谢您的出色工作，这极大地帮助了我们的研究。请问您是否有关于发布代码和模型权重的计划？如果您有机会，我们非常感谢您提供更新！

Nilesh Gupta

论文作者

论文提交者

你好 @TankNee！感谢你的联系。我目前正在将我们的内部代码转换为一个开放支持的代码库，预计需要大约一周的时间 🤞。完成后我会在这里发布更新。再次感谢你对我们工作的关注！

可扩展的生成模型上下文内排序

摘要

评论