PAROAttention:视觉生成模型中高效稀疏和量化注意力的模式感知重排序

发表
Tianchen ZhaoTianchen Zhao 提交
作者: Tianchen ZhaoTianchen Zhao, Ke Hong, Xinhao Yang, Xuefeng Xiao, Huixia Li, Feng Ling, RIcky XieRuiqi Xie, Siqi Chen, Hongyu Zhu, Yichong Zhang, Yu Wang

摘要

在视觉生成中,注意力机制的二次复杂度导致高昂的内存和计算成本,尤其是在高分辨率图像或多帧视频生成所需的更长令牌序列中。为了解决这个问题,先前的研究探索了稀疏化和量化等技术。然而,这些技术在低密度和减少位宽下(bitwidth)面临严峻挑战。通过系统分析,我们发现核心难点源于视觉注意力模式分散和不规则的特性。因此,我们没有引入专门的稀疏化和量化设计来适应这些模式,而是提出了一种替代策略:*重组*注意力模式以缓解挑战。受视觉特征提取局部聚合特性的启发,我们设计了一种新颖的**模式感知令牌重排序(Pattern-Aware token ReOrdering, PARO)**技术,该技术将多样化的注意力模式统一为硬件友好的块状模式。这种统一显著简化并增强了稀疏化和量化。我们评估了各种设计选择的性能-效率权衡,并最终确定了一种针对统一模式量身定制的方法。我们的方法**PAROAttention**在视频和图像生成中实现了无损指标,并取得了与全精度(FP)基线几乎相同的结果,同时在显著更低的密度(约20%-30%)和位宽(**INT8/INT4**)下运行,实现了**1.9倍**到**2.7倍**的端到端延迟加速。
查看 arXiv 页面查看 PDF

评论

Tianchen ZhaoTianchen Zhao
论文作者
论文提交者

我们提出 PAROAttention:一种简单而有效的方法,用于提高视觉生成模型中注意力的效率。通过采用一种新颖的替代方法,即通过“Pattern-Aware token ReOrder”(模式感知令牌重排)来“重组”注意力模式,它同时改进了注意力的稀疏化和量化,实现了卓越的性能保持和硬件效率。PAROAttention 在主流视频(CogVideo、Wan)和图像生成(Flux)模型上,实现了20%的密度(5倍稀疏)和QK及PV计算的INT4量化,将注意力计算加速了3-10倍,端到端加速了2-4倍,同时保持了生成质量。

https://cdn-uploads.huggingface.co/production/uploads/6454568636821f6860fed410/bCDy08tC9Kv_cD_Boi7kz.mp4