表征转移:统一表征压缩与 FlashAttention

发表
Sanghyeok LeeSanghyeok Lee 提交
作者: Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

摘要

Transformer 模型在视觉、语言和视频领域取得了显著成功。然而,日益增长的任务复杂性导致模型和标记数量不断增大,从而提高了自注意力的二次成本和 GPU 内存访问的开销。为了降低自注意力的计算成本,之前的工作提出了标记压缩技术,用于丢弃冗余或信息量较少的标记。同时,人们开发了融合注意力核(如 FlashAttention)来避免注意力图的构建及其相关的 HBM I/O,从而减轻内存开销。然而,这使得它与大多数免训练的标记压缩方法不兼容,因为这些方法依赖注意力图来确定标记的重要性。在此,我们提出了一种免训练、与模型无关的度量方法,即“表示偏移”(Representation Shift),它用于衡量每个标记表示的变化程度。这使得标记压缩能够与 FlashAttention 无缝集成,无需注意力图或再训练。我们的方法进一步推广到 Transformer 模型之外,适用于 CNN 和状态空间模型。大量实验表明,表示偏移能够实现与 FlashAttention 兼容的有效标记压缩,从而在视频文本检索和视频问答中分别实现高达 5.5% 和 4.4% 的显著加速。代码可在 https://github.com/mlvlab/Representation-Shift 获取。
查看 arXiv 页面查看 PDF

评论

Sanghyeok LeeSanghyeok Lee
论文提交者

代码可在 https://github.com/mlvlab/Representation-Shift 获取。