带有尺度感知KV缓存压缩的内存高效视觉自回归建模

发表
Zigeng ChenZigeng Chen 提交
作者: Kunjun LiKunjun Li, Zigeng ChenZigeng Chen, Cheng-Yen Yang, Jenq-Neng Hwang

摘要

视觉自回归(VAR)建模因其创新的下一尺度预测方法而受到广泛关注,该方法在效率、可扩展性和零样本泛化方面取得了显著改进。然而,VAR固有的从粗到精方法导致推理过程中KV缓存呈指数级增长,造成相当大的内存消耗和计算冗余。为了解决这些瓶颈,我们引入了ScaleKV,这是一个专为VAR架构设计的全新KV缓存压缩框架。ScaleKV利用了两个关键观察:Transformer层之间变化的缓存需求和不同尺度下独特的注意力模式。基于这些见解,ScaleKV将Transformer层分为两个功能组:起草器(drafters)和细化器(refiners)。起草器在多个尺度上表现出分散的注意力,因此需要更大的缓存容量。相反,细化器将注意力集中在当前令牌图上以处理局部细节,因此需要的缓存容量大大减少。ScaleKV通过识别特定尺度的起草器和细化器来优化多尺度推理流水线,从而实现针对每个尺度的差异化缓存管理。对最先进的文本到图像VAR模型家族Infinity的评估表明,我们的方法有效地将所需的KV缓存内存减少到10%,同时保持像素级的保真度。
查看 arXiv 页面查看 PDF

评论

Zigeng ChenZigeng Chen
论文作者
论文提交者

代码: https://github.com/StargazerX0/ScaleKV