Sparse VideoGen2:通过语义感知的置换和稀疏注意力加速视频生成

发表
Haocheng XiHaocheng Xi 提交
作者: andy-yangShuo Yang, Haocheng XiHaocheng Xi, Yilong ZhaoYilong Zhao, Muyang LiMuyang Li, Jintao ZhangJintao Zhang, Han CaiHan Cai, Yujun Lin, Xiuyu Li, Chenfeng XuChenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica

摘要

扩散 Transformer (DiTs) 对于视频生成至关重要,但由于注意力的二次复杂度而导致显著延迟。通过仅计算关键 token,稀疏注意力降低了计算成本,并提供了有前景的加速方法。然而,我们发现现有方法在相同的计算预算下未能接近最优生成质量,原因有二:(1) 关键 token 识别不准确:现有方法基于位置而非语义对 token 进行聚类,导致聚合表示不精确。(2) 计算浪费过多:关键 token 分散在非关键 token 之间,导致在 GPU 上浪费计算,而 GPU 针对处理连续 token 进行了优化。在本文中,我们提出了 SVG2,一个无需训练的框架,最大限度地提高识别准确率并最小化计算浪费,在生成质量和效率之间实现了帕累托前沿权衡。SVG2 的核心是语义感知置换,它使用 k-means 基于语义相似性对 token 进行聚类和重新排序。这种方法既确保了精确的聚类表示,提高了识别准确率,又密集了关键 token 的布局,无需填充即可实现高效计算。此外,SVG2 集成了 top-p 动态预算控制和定制内核实现,在 HunyuanVideo 和 Wan 2.1 上分别实现了高达 2.30 倍和 1.89 倍的加速,同时保持了高达 30 和 26 的 PSNR。
查看 arXiv 页面查看 PDF

评论

Haocheng XiHaocheng Xi
论文作者
论文提交者

本文提出了一种稀疏注意力技术,用于加速视频扩散模型的生成过程。在最先进的视频生成模型,如 Wan 2.1 和 HunyuanVideo 上,Sparse-VideoGen 2 实现了近乎无损的生成质量,并在 HunyuanVideo 上展示了 2.3 倍的速度提升,在 Wan 2.1 上展示了 1.8 倍的速度提升。