⏶28
RetroInfer:可扩展长上下文LLM推理的一种向量存储方法
发表
由
Huiqiang Jiang 提交
作者: Yaoqi Chen, Jinkai Zhang,
Baotong Lu,
Qianxi Zhang, Chengruidong Zhang, Jingjia Luo, Di Liu,
Huiqiang Jiang, Qi Chen, Jing Liu, Bailu Ding, Xiao Yan, Jiawei Jiang, Chen Chen,
Mingxing Zhang, Yuqing Yang, Fan Yang, Mao Yang
摘要
AI 生成总结
RetroInfer是一个基于注意力稀疏性使用向量存储方法的系统,它显著加速了具有长上下文的大型语言模型的推理,同时不降低准确性。大型语言模型(LLMs)日益增长的上下文长度对高效推理提出了严峻挑战,这主要是由于GPU内存和带宽的限制。我们提出了RetroInfer,这是一个新颖的系统,它将键值(KV)缓存重新构想为向量存储系统,利用固有的注意力稀疏性来加速长上下文LLM推理。其核心是波索引(wave index),一个注意力感知向量索引(Attention-aWare VEctor index),通过三方注意力近似、精度边界注意力估计和分段聚类等技术实现关键tokens的高效准确检索。与之相辅相成的是波缓冲区(wave buffer),它协调KV缓存的放置,并重叠GPU和CPU之间的计算和数据传输,以维持高吞吐量。与之前基于稀疏性但难以进行token选择和硬件协调的方法不同,RetroInfer在不牺牲模型精度的情况下提供了强大的性能。在长上下文基准测试上的实验表明,在GPU内存限制内,相对于全注意力速度提升高达4.5倍,当KV缓存扩展到CPU内存时,相对于稀疏注意力基线速度提升高达10.5倍,同时保持了与全注意力相同的精度水平。
🚀 隆重推出 RetroInfer:一种新的系统,它将 KV 缓存重新构想为 GPU-CPU 协同执行设置中的向量存储,以加速长上下文 LLM 推理。它由 wave index 和 wave buffer 提供支持,相对于 FlashAttention 实现了 4.5 倍至 10.5 倍的加速——且不损失准确性。
例如,在单个 A100 上处理 120K 上下文时,RetroInfer 达到了 386 tokens/s 的解码速度,这显著快于使用 FlashAttention 实现的 86 tokens/s。此外,RetroInfer 有效地扩展了单个 GPU 支持的上下文长度。它允许以 27 tokens/s 的解码速度处理 1M 上下文,而之前的 GPU-CPU 推理解决方案最高只能达到 2.63 tokens/s。