⏶40
SANA-Video:使用块状线性扩散Transformer实现高效视频生成
发表
由
Yuyang 提交
作者:
Junsong Chen, Yuyang Zhao, Jincheng Yu, Ruihang Chu, Junyu Chen, Shuai Yang, Xianbang Wang, Yicheng Pan, Daquan Zhou, Huan Ling, Haozhe Liu, Hongwei Yi, Hao Zhang,
Muyang Li,
Yukang Chen, Han Cai, Sanja Fidler, Ping Luo, Song Han, Enze Xie


摘要
AI 生成总结
SANA-Video 是一种小型扩散模型,使用线性注意力和恒定内存 KV 缓存,能够高效地生成具有强文本-视频对齐的高分辨率、高质量视频,并以更低的成本和更快的速度实现了具有竞争力的性能。我们推出了 SANA-Video,一个小型扩散模型,能够高效生成高达 720x1280 分辨率和分钟级时长的视频。SANA-Video 以极快的速度合成高分辨率、高质量和长时视频,并具有强大的文本-视频对齐能力,可在 RTX 5090 GPU 上部署。两个核心设计确保了我们高效、有效且长视频生成:(1) 线性 DiT:我们利用线性注意力作为核心操作,考虑到视频生成中处理的大量 token,它比 vanilla 注意力更高效。(2) 块线性注意力的恒定内存 KV 缓存:我们通过采用恒定内存状态(源自线性注意力的累积特性)来设计块状自回归方法,用于长视频生成。此 KV 缓存以固定的内存成本为线性 DiT 提供全局上下文,消除了对传统 KV 缓存的需求,并实现了高效的、分钟级的视频生成。此外,我们探索了有效的数据过滤器和模型训练策略,将训练成本缩小到 64 个 H100 GPU 上的 12 天,仅占 MovieGen 成本的 1%。鉴于其低成本,SANA-Video 在与现代最先进的小型扩散模型(例如 Wan 2.1-1.3B 和 SkyReel-V2-1.3B)相比时,取得了有竞争力的性能,同时在测量的延迟方面快 16 倍。此外,SANA-Video 可以在 RTX 5090 GPU 上使用 NVFP4 精度进行部署,将生成 5 秒 720p 视频的推理速度从 71 秒加速到 29 秒(加速 2.4 倍)。总之,SANA-Video 实现了低成本、高质量的视频生成。
🚀 SANA-Video:高效 AI 视频生成时代来临! SANA 系列迎来新成员!我们推出 SANA-Video,这是一款小型扩散模型,旨在突破视频速度的极限,使高质量的短视频和长视频内容真正能在消费级硬件上部署。
核心效率与影响 架构:纯线性 Transformer + 块状线性 KV 缓存 = 无与伦比的效率。
训练成本:我们大幅降低了成本!仅用 12 天在 64 个 H100 GPU 上完成训练。
速度:预训练模型可在短短 36 秒内生成 720p 视频。
统一:一个统一的框架,集文本到视频、图像到视频和文本到图像于一身!
最重要的一点:仍然是完全开源的模型。
📖 论文:https://huggingface.co/papers/2509.24695 💻 项目主页:https://nvlabs.github.io/Sana/Video