Sparse-vDiT:释放稀疏注意力潜能,加速视频扩散Transformer

发表
Wei ChengWei Cheng 提交
作者: Pengtao ChenPengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei ChengWei Cheng, Gang YuGang Yu, Tao Chen

摘要

尽管扩散Transformer (DiTs) 在视频生成领域取得了突破,但这项长序列生成任务仍受限于注意力机制的二次复杂度,导致显著的推理延迟。通过对视频扩散Transformer (vDiT) 中注意力图的详细分析,我们识别出三种重复出现的稀疏模式:对角线、多对角线和垂直条纹结构。甚至有3-6%的注意力头可以被跳过。关键是,这些模式表现出很强的层深度和头位置相关性,但对输入内容的依赖性有限。借鉴这些发现,我们提出了Sparse-vDiT,一个用于vDiT的稀疏加速框架,包括:1) 模式优化的稀疏核,用计算高效的实现代替每种识别出的稀疏模式的密集注意力。2) 一种离线稀疏扩散搜索算法,通过硬件感知成本建模为每层和每个注意力头选择最佳稀疏计算策略。确定最佳配置后,我们融合同一层中共享相同注意力策略的头部,从而提高推理效率。Sparse-vDiT 被集成到最先进的vDiT模型(CogVideoX1.5、HunyuanVideo和Wan2.1)中,分别实现了2.09倍、2.38倍和1.67倍的理论FLOPs减少,以及1.76倍、1.85倍和1.58倍的实际推理加速,同时保持了高视觉保真度,PSNR值分别达到24.13、27.09和22.59。我们的工作表明,vDiT中潜在的结构稀疏性可以被系统地利用于长视频合成。
查看 arXiv 页面查看 PDF
Sparse-vDiT:释放稀疏注意力潜能,加速视频扩散Transformer

评论

Wei ChengWei Cheng
论文作者
论文提交者

代码:https://github.com/Peyton-Chen/Sparse-vDiT