⏶105
Kimi Linear:一种富有表现力、高效的注意力架构
发表
由
taesiri 提交
作者: Kimi Team,
Yu Zhang, Zongyu Lin, Xingcheng Yao,
Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang,
Zhiyuan Li, Wentao Li, Enzhe Lu, Weizhou Liu, Yanru Chen, Weixin Xu, Longhui Yu,
Yejie Wang, Yu Fan,
Longguang Zhong, Enming Yuan, Dehao Zhang, Yizhi Zhang, T. Y. Liu, Haiming Wang, Shengjun Fang, Weiran He, Shaowei Liu, Yiwei Li, Jianlin Su, Jiezhong Qiu, Bo Pang, Junjie Yan, Zhejun Jiang, Weixiao Huang, Bohong Yin, Jiacheng You, Chu Wei, Zhengtao Wang, Chao Hong, Yutian Chen, Guanduo Chen, Yucheng Wang, Huabin Zheng, Feng Wang, Yibo Liu, Mengnan Dong, Zheng Zhang, Siyuan Pan, Wenhao Wu,
Yuhao Wu, Longyu Guan, Jiawen Tao, Guohong Fu, Xinran Xu, Yuzhi Wang, Guokun Lai, Yuxin Wu, Xinyu Zhou, Zhilin Yang, Yulun Du
摘要
AI 生成总结
Kimi Linear 是一种混合线性注意力架构,通过 Kimi Delta Attention 和多头潜在注意力,在各种场景中以更高的效率和性能超越了全注意力。我们引入了Kimi Linear,一种混合线性注意力架构,首次在各种场景下(包括短上下文、长上下文和强化学习(RL)扩展机制)公平比较中超越了全注意力。其核心是Kimi Delta Attention(KDA),一个表达性线性注意力模块,它通过更细粒度的门控机制扩展了Gated DeltaNet,从而更有效地利用有限的有限状态RNN内存。我们定制的块式算法通过一种专门的对角线加低秩(DPLR)转换矩阵变体实现了高硬件效率,与通用DPLR公式相比,它显著减少了计算量,同时与经典Delta规则保持更高的一致性。
我们预训练了一个Kimi Linear模型,拥有3B激活参数和48B总参数,基于KDA和多头潜在注意力(MLA)的分层混合。我们的实验表明,在相同的训练方案下,Kimi Linear在所有评估任务中都以相当大的优势优于完整的MLA,同时将KV缓存使用量减少高达75%,并为1M上下文实现高达6倍的解码吞吐量。这些结果表明,Kimi Linear可以作为全注意力架构的直接替代品,具有卓越的性能和效率,包括更长输入和输出长度的任务。
为了支持进一步研究,我们开源了KDA内核和vLLM实现,并发布了预训练和指令调优的模型检查点。
我们引入了 Kimi Linear,这是一种混合线性注意力架构,首次在各种场景下(包括短上下文、长上下文和强化学习 (RL) 扩展方案)在公平比较中超越了全注意力。其核心是 Kimi Delta Attention (KDA),这是一种富有表现力的线性注意力模块,它通过更细粒度的门控机制扩展了 Gated DeltaNet,从而更有效地利用有限的有限状态 RNN 内存。我们定制的分块算法通过 Diagonal-Plus-Low-Rank (DPLR) 转换矩阵的特殊变体实现了高硬件效率,与通用 DPLR 公式相比,它大大减少了计算量,同时与经典的 delta 规则保持更一致。
我们预训练了一个 Kimi Linear 模型,该模型具有 3B 激活参数和 48B 总参数,基于 KDA 和 Multi-Head Latent Attention (MLA) 的层级混合。我们的实验表明,在相同的训练方案下,Kimi Linear 在所有评估任务中以相当大的优势优于完整的 MLA,同时将 KV 缓存使用量减少了高达 75%,并在 1M 上下文下实现了高达 6 倍的解码吞吐量。这些结果表明,Kimi Linear 可以替代全注意力架构,具有卓越的性能和效率,包括更长的输入和输出长度的任务。
为了支持进一步的研究,我们开源了 KDA 内核和 vLLM 实现,并发布了预训练和指令调整的模型检查点。