溢出预防增强长上下文循环LLM

发表
Assaf Ben-KishAssaf Ben-Kish 提交
作者: Assaf Ben-KishAssaf Ben-Kish, Itamar ZimermanItamar Zimerman, M. Jehanzeb Mirza, James GlassJames Glass, Leonid KarlinskyLeonid Karlinsky, Raja GiryesRaja Giryes

摘要

LLM 领域的一个最新趋势是开发循环次二次模型,以提高长上下文处理效率。我们调查了领先的大型长上下文模型,重点研究了它们固定大小的循环记忆如何影响其性能。我们的实验表明,即使这些模型接受了针对更长上下文的训练,它们对长上下文的利用仍然不足。具体来说,我们证明了一种基于块的推理过程——它只识别并处理输入中最相关的部分——可以缓解循环记忆失效,并且对许多长上下文任务有效:在 LongBench 上,我们的方法将 Falcon3-Mamba-Inst-7B 的整体性能提高了 14%,将 Falcon-Mamba-Inst-7B 提高了 28%,将 RecurrentGemma-IT-9B 提高了 50%,将 RWKV6-Finch-7B 提高了 51%。令人惊讶的是,这种简单的方法在具有挑战性的 LongBench v2 基准测试中也取得了最先进的结果,与同等大小的 Transformer 模型相比显示出具有竞争力的性能。此外,我们的研究结果引发了关于循环模型是否真正利用了长程依赖关系的疑问,因为我们的单块策略表现出更强的性能——即使在那些推测需要跨上下文关系的任务中也是如此。
查看 arXiv 页面查看 PDF

评论

Assaf Ben-KishAssaf Ben-Kish
论文作者
论文提交者

OPRM(循环模型溢出预防)是一种适用于长上下文循环大语言模型的无需训练的推理方法。通过减轻循环内存溢出,OPRM 确保可靠推理,并在合成和真实世界的长上下文任务中带来显著提升。此外,OPRM 自然地执行上下文扩展,使模型能够处理远超其原始训练长度的序列,同时比普通推理更快,并且内存占用出奇地小。

代码:https://github.com/assafbk/OPRM

Arxiv:https://arxiv.org/abs/2505.07793

image.png