InfLLM-V2:密集-稀疏可切换注意力,实现无缝短长适应

发表
Chaojun XIAOChaojun XIAO 提交
作者: Weilin ZhaoWeilin Zhao, Zihan Zhou, zhousuZhou Su, Chaojun XIAOChaojun Xiao, Yuxuan Li, Yanghao LiYanghao Li, Yudi Zhang, Weilun Zhao, Zhen Li, Yuxiang Huang, Ao Sun, Xu Han, Zhiyuan Liu

摘要

AI 生成总结
InfLLM-V2 是一种密集-稀疏可切换的注意力框架,通过在密集和稀疏注意力机制之间高效适应,增强了大语言模型对长序列的处理能力。
长序列处理是现代大型语言模型的一项关键能力。然而,标准 Transformer 架构中的自注意力机制在处理长序列时会面临严重的计算和内存瓶颈。虽然可训练的稀疏注意力方法提供了一个有希望的解决方案,但现有的方法(如 NSA)引入了过多的额外参数,并破坏了传统的“在短序列上预训练,在长序列上微调”的工作流程,导致收敛缓慢且难以加速。为了克服这些限制,我们引入了一种称为 InfLLM-V2 的密集-稀疏可切换注意力框架。InfLLM-V2 是一种可训练的稀疏注意力,可以无缝地使模型适应从短序列到长序列的处理。具体来说,InfLLM-V2 通过无参数的架构修改重用了密集注意力参数,保持了短序列和长序列处理之间的一致性。此外,InfLLM-V2 通过对短输入使用密集注意力,并平滑地过渡到对长序列使用稀疏注意力,确保了所有序列长度上的计算效率。为了实现实际的加速,我们进一步引入了一种高效的 InfLLM-V2 实现,显著降低了计算开销。我们在长上下文理解和思维链推理上的实验表明,InfLLM-V2 比密集注意力快 4 倍,同时分别保留了 98.1% 和 99.7% 的性能。基于 InfLLM-V2 框架,我们训练并开源了 MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B),一个混合推理模型,为研究社区提供了可复现的实现。
查看 arXiv 页面查看 PDF

评论

Chaojun XIAOChaojun XIAO
论文作者
论文提交者

✨ InfLLM‑V2: 无缝长上下文适应

1️⃣ 超快适应:只需 5B 长文本 token 即可训练稀疏注意力(相比之下,DeepSeek-V3.2 的 DSA 需要约 1T)。 2️⃣ 端到端加速:预填充速度提高 2.1 倍,解码速度提高 2.3 倍;在 128K 时,核加速最高可达 4–9 倍。

在长上下文基准上取得顶尖结果,并具备强大的深度思考能力——在保持密集精度的同时速度更快,分别保留了 98.1%/99.7% 的精度。

尝试首个开源的稀疏原生模型: MiniCPM4.1‑8B:https://huggingface.co/openbmb/MiniCPM4.1-8B