稀疏前沿:Transformer LLMs 中的稀疏注意力权衡

发表
Piotr NawrotPiotr Nawrot 提交
作者: Piotr NawrotPiotr Nawrot, Robert Li, Renjie Huang, Sebastian RuderSebastian Ruder, Kelly MarchisioKelly Marchisio, Edoardo Maria PontiEdoardo M. Ponti

摘要

稀疏注意力为扩展 Transformer 大型语言模型(LLMs)的长上下文能力提供了一种有前景的策略,但其可行性、效率-准确性权衡以及系统性缩放研究仍未得到充分探索。为了弥补这一空白,我们在不同模型规模、序列长度和稀疏度级别下,对一系列多样化的长序列任务(包括一些依赖自然语言但同时可控且易于评估的新颖任务)上的免训练稀疏注意力方法进行了仔细比较。根据我们的实验,我们报告了一系列关键发现:1) isoFLOPS 分析表明,对于非常长的序列,更大、高度稀疏的模型优于更小、稠密的模型。2) 在统计学上保证准确性得以保持的情况下,解码阶段可实现的稀疏度高于预填充阶段,并且在解码阶段的稀疏度与模型大小相关。3) 没有一种明确的策略在所有任务和阶段都表现最佳,不同场景需要不同的稀疏化单位或预算适应性。即使是适度的稀疏度水平,也常常导致至少一项任务的性能显著下降,这突出表明稀疏注意力并非一个普适的解决方案。4) 我们引入并验证了专门为稀疏注意力定制的新型缩放定律,提供的证据表明我们的发现很可能在我们的实验范围之外也适用。通过这些见解,我们证明了稀疏注意力是增强 Transformer LLMs 处理更长序列能力的关键工具,但对于性能敏感的应用,需要仔细评估其权衡。
查看 arXiv 页面查看 PDF

评论

Piotr NawrotPiotr Nawrot
论文作者
论文提交者

稀疏注意力为扩展 Transformer LLM 的长上下文能力提供了一种有前途的策略,然而,其可行性、效率与准确性的权衡以及系统的扩展研究仍未得到充分探索。为了解决这一空白,我们对不同模型规模、序列长度和稀疏度下的无训练稀疏注意力方法进行了仔细比较,并在多样化的长序列任务集合上进行——包括依赖自然语言但仍可控且易于评估的新任务。基于我们的实验,我们报告了一系列关键发现:1) isoFLOPS 分析表明,对于非常长的序列,更大且高度稀疏的模型比更小且稠密的模型更可取。2) 在统计上保证精度保持的同时可达到的稀疏度在解码阶段高于预填充阶段,并且在前者中与模型规模相关。3) 没有一种明确的策略在所有任务和阶段都表现最佳,不同的场景需要不同的稀疏化单元或预算适应性。即使是中等程度的稀疏度也常常导致至少一项任务的性能显著下降,这突出表明稀疏注意力并非万能解决方案。4) 我们引入并验证了专门针对稀疏注意力的新型扩展定律,提供的证据表明我们的发现可能在我们实验范围之外也适用。通过这些见解,我们证明稀疏注意力是增强 Transformer LLM 处理更长序列能力的关键工具,但对于性能敏感的应用,需要仔细评估其权衡。

Piotr NawrotPiotr Nawrot
论文作者
论文提交者

此处为原推文,包含作者见解:https://x.com/p_nawrot/status/1915747558984499556