径向注意力:具有能量衰减的 O(nlog n) 稀疏注意力用于长视频生成

发表
Muyang LiMuyang Li 提交
作者: Xingyang Li, Muyang LiMuyang Li, Tianle Cai, Haocheng XiHaocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han

摘要

扩散模型的最新进展使得高质量视频生成成为可能,但额外的时序维度显著增加了计算成本,使得长视频的训练和推理变得极其昂贵。在本文中,我们发现了一种现象,称之为视频扩散模型中的时空能量衰减:在softmax后,随着token之间空间和时间距离的增加,注意力得分会降低,类似于自然界中信号或波在空间和时间上的物理衰减。受此启发,我们提出了径向注意力(Radial Attention),这是一种可扩展的稀疏注意力机制,具有O(n log n)的复杂度,它将能量衰减转化为指数衰减的计算密度,这比标准的O(n^2)密集注意力效率显著更高,并且比线性注意力更具表达力。具体而言,径向注意力采用了一种简单的、静态的注意力掩码,其中每个token关注空间上附近的token,并且注意力窗口的大小随着时间距离的增加而缩小。此外,它允许预训练的视频扩散模型通过高效的基于LoRA的微调来扩展其生成长度。大量实验表明,径向注意力在Wan2.1-14B、HunyuanVideo和Mochi 1上保持了视频质量,与原始密集注意力相比,实现了高达1.9倍的加速。经过最少的调整,它能够生成长达4倍的视频,同时与直接微调相比,训练成本降低高达4.4倍,与密集注意力推理相比,推理速度加快高达3.7倍。
查看 arXiv 页面查看 PDF

评论

Muyang LiMuyang Li
论文作者
论文提交者

我们引入了径向注意力(Radial Attention),这是一种稀疏注意力机制,具有O(nlog⁡n)的计算复杂度,适用于长视频生成。

🔍 主要特点:

✅ 即插即用:适用于WanHunyuanVideoMochi预训练模型

✅ 将训练和推理速度提升2–4倍,且不损失质量

您只需要一个预定义的静态注意力掩码!

ComfyUI集成正在进行中,并将在ComfyUI-nunchaku中发布!

Paper: https://arxiv.org/abs/2506.19852

Code: https://github.com/mit-han-lab/radial-attention

Website: https://hanlab.mit.edu/projects/radial-attention

Sayak PaulSayak Paul

做得好!

Valeriy SelitskiyValeriy Selitskiy

麻省理工学院韩实验室再次取得成功