⏶38
径向注意力:具有能量衰减的 O(nlog n) 稀疏注意力用于长视频生成
发表
由
Muyang Li 提交

作者: Xingyang Li,
Muyang Li, Tianle Cai,
Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han

摘要
扩散模型的最新进展使得高质量视频生成成为可能,但额外的时序维度显著增加了计算成本,使得长视频的训练和推理变得极其昂贵。在本文中,我们发现了一种现象,称之为视频扩散模型中的时空能量衰减:在softmax后,随着token之间空间和时间距离的增加,注意力得分会降低,类似于自然界中信号或波在空间和时间上的物理衰减。受此启发,我们提出了径向注意力(Radial Attention),这是一种可扩展的稀疏注意力机制,具有O(n log n)的复杂度,它将能量衰减转化为指数衰减的计算密度,这比标准的O(n^2)密集注意力效率显著更高,并且比线性注意力更具表达力。具体而言,径向注意力采用了一种简单的、静态的注意力掩码,其中每个token关注空间上附近的token,并且注意力窗口的大小随着时间距离的增加而缩小。此外,它允许预训练的视频扩散模型通过高效的基于LoRA的微调来扩展其生成长度。大量实验表明,径向注意力在Wan2.1-14B、HunyuanVideo和Mochi 1上保持了视频质量,与原始密集注意力相比,实现了高达1.9倍的加速。经过最少的调整,它能够生成长达4倍的视频,同时与直接微调相比,训练成本降低高达4.4倍,与密集注意力推理相比,推理速度加快高达3.7倍。
我们引入了径向注意力(Radial Attention),这是一种稀疏注意力机制,具有O(nlogn)的计算复杂度,适用于长视频生成。
🔍 主要特点:
✅ 即插即用:适用于Wan、HunyuanVideo、Mochi等预训练模型
✅ 将训练和推理速度提升2–4倍,且不损失质量
您只需要一个预定义的静态注意力掩码!
ComfyUI集成正在进行中,并将在ComfyUI-nunchaku中发布!
Paper: https://arxiv.org/abs/2506.19852
Code: https://github.com/mit-han-lab/radial-attention
Website: https://hanlab.mit.edu/projects/radial-attention