Re-ttention:通过注意力统计重塑实现的超稀疏视觉生成

发表
Ruichen ChenRuichen Chen 提交
作者: Ruichen ChenRuichen Chen, Keith G. MillsKeith G. Mills, Liyao JiangLiyao Jiang, Chao Gao, Di Niu

摘要

Diffusion Transformers (DiT) 已成为用于生成视频和图像等高质量视觉内容的实际标准模型。一个巨大的瓶颈是注意力机制,其复杂度随分辨率和视频长度呈平方增长。减轻这一负担的一种合理方法是稀疏注意力,其中只有一部分 token 或 patch 被包含在计算中。然而,现有技术在极高的稀疏度水平下未能保持视觉质量,甚至可能产生不可忽略的计算开销。为了解决这个问题,我们提出了 Re-ttention,它通过利用 Diffusion 模型的时间冗余性来克服注意力机制中的概率归一化偏移问题,从而为视觉生成模型实现了极高的稀疏注意力。具体来说,Re-ttention 根据先前的 softmax 分布历史来重塑注意力分数,以便在极高的稀疏度水平下保持完全二次注意力的视觉质量。在 CogVideoX 和 PixArt DiTs 等 T2V/T2I 模型上的实验结果表明,Re-ttention 在推理过程中仅需要 3.1% 的 token,优于 FastDiTAttn、Sparse VideoGen 和 MInference 等现有方法。此外,我们测量了延迟,以表明我们的方法在 H100 GPU 上可以实现超过 45% 的端到端延迟降低以及超过 92% 的自注意力延迟降低,且开销可忽略不计。代码在线提供,地址:https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
查看 arXiv 页面查看 PDF

评论

Ruichen ChenRuichen Chen
论文作者
论文提交者

Re-ttention 是一种稀疏注意力方法,在推理过程中只需要少至 3.1% 的 token,它利用扩散模型的时序冗余性来重塑注意力分数,以保持视觉质量。