SageAttention3:微缩放 FP4 注意力用于推理以及对 8 比特训练的探索

发表
Jintao ZhangJintao Zhang 提交
作者: Jintao ZhangJintao Zhang, Jia Wei, Pengle ZhangPengle Zhang, Xiaoming Xu, haofeng huangHaofeng Huang, whx1003Haoxu Wang, Kai Jiang, Jun Zhu, Jianfei ChenJianfei Chen

摘要

AI 生成总结
注意力机制的效率增强,包括利用 FP4 张量核心和开发 8 位注意力方法,提高了推理和训练性能。
由于其二次时间复杂度,注意力的效率至关重要。我们通过两项关键贡献来提升注意力的效率:首先,我们利用 Blackwell GPU 中新的 FP4 Tensor Cores 来加速注意力计算。我们的实现在 RTX5090 上达到了 1038 TOPS,比 RTX5090 上最快的 FlashAttention 加速了 5 倍。实验表明,我们的 FP4 注意力可以以即插即用的方式加速各种模型的推理。其次,我们开创性地将低比特注意力应用于训练任务。现有的低比特注意力工作,如 FlashAttention3 和 SageAttention,仅专注于推理。然而,训练大型模型的效率也同样重要。为了探索低比特注意力是否能有效地应用于训练任务,我们设计了一种针对前向和后向传播的准确高效的 8 比特注意力。实验表明,8 比特注意力在微调任务中实现了无损性能,但在预训练任务中收敛速度较慢。代码将在 <a href="https://github.com/thu-ml/SageAttention&quot;&gt;https://github.com/thu-ml/SageAttention&lt;/a&gt; 提供。
查看 arXiv 页面查看 PDF
SageAttention3:微缩放 FP4 注意力用于推理以及对 8 比特训练的探索

评论

Jintao ZhangJintao Zhang
论文作者
论文提交者

SageAttention3:用于推理的微缩放 FP4 Attention,提速5倍;以及用于训练的8位Attention。代码将在 https://github.com/thu-ml/SageAttention 提供。

YJYJ

一个音频概览😀
第 82 期:SageAttention3 介绍。更少的比特,更多的智慧!
https://youtu.be/tvMlbLHvtlA

Jintao ZhangJintao Zhang
论文作者
论文提交者

你好,感谢你通过视频介绍 SageAttention3,但 YouTube 链接是私有链接,我无法访问。你能分享一个公开链接吗?

YJYJ

现已设为公开!有时 Spotify 与 YouTube 的同步会出现一些奇怪的错误,会将可见性设置为私有。

Furkan GözükaraFurkan Gözükara

请,请,请也支持 Windows!

Ken chenKen chen

我申请了使用,但一直没有得到回复

Ken chenKen chen

我申请了访问权限,但一直没有收到回复。