nablaNABLA:邻域自适应块级注意力

发表
Vladimir KorviakovVladimir Korviakov 提交
作者: Dmitrii MikhailovDmitrii Mikhailov, Alexey LetunovskiyAleksey Letunovskiy, Maria Kovaleva, Vladimir Arkhipkin, Vladimir KorviakovVladimir Korviakov, Vladimir Polovnikov, Viacheslav Vasilev, Evelina Sidorova, Denis DimitrovDenis Dimitrov

摘要

AI 生成总结
NABLA 是一种邻域自适应块级注意力机制,通过减少计算开销,同时不显著影响生成质量或视觉保真度,增强了视频扩散 Transformer。
基于Transformer的架构在视频生成任务中取得了显著成功。然而,全注意力机制的二次复杂度仍然是一个关键瓶颈,特别是对于高分辨率和长时间的视频序列。在本文中,我们提出了NABLA,一种新颖的邻域自适应块级注意力机制,它能动态适应视频扩散Transformer(DiTs)中的稀疏模式。通过利用带有自适应稀疏性驱动阈值的块级注意力,NABLA在减少计算开销的同时保持了生成质量。我们的方法不需要定制的低级算子设计,并且可以与PyTorch的Flex Attention算子无缝集成。实验表明,与基线相比,NABLA在训练和推理速度上提高了高达2.7倍,同时几乎不影响定量指标(CLIP分数、VBench分数、人工评估分数)和视觉质量。代码和模型权重可在此处获取:https://github.com/gen-ai-team/Wan2.1-NABLA
查看 arXiv 页面查看 PDF

评论

Vladimir KorviakovVladimir Korviakov
论文作者
论文提交者

本文提出 NABLA,一种新颖的邻域自适应块级注意力机制,可以动态适应视频扩散 Transformer (DiTs) 中的稀疏模式。通过利用带有自适应稀疏驱动阈值的块级注意力,NBLA 降低了计算开销,同时保持了生成质量。

Github: https://github.com/gen-ai-team/Wan2.1-NABLA

nabla_screenshot.png

Grant SingletonGrant Singleton

arXiv 解释了这篇论文的详细解析 👉 https://arxivexplained.com/papers/nablanabla-neighborhood-adaptive-block-level-attention