每一次关注都至关重要:一种用于长上下文推理的高效混合架构

发表
taesiritaesiri 提交
作者: Ling Team, Bin Han, Caizhi Tang, Chen Liang, Donghao Zhang, Fan Yuan, Feng Zhu, Jie Gao, Jingyu, HuJingyu Hu, longfei liLongfei Li, Meng Li, Mingyang Zhang, Peijie Jiang, Peng Jiao, Qian ZhaoQian Zhao, Qingyuan Yang, Wenbo Shen, Xinxing Yang, Yalin Zhang, Yankun Ren, Yao Zhao, Yibo Cao, Yixuan Sun, Yue ZhangYue Zhang, Yuchen Fang, Zibin Lin, Zixuan Cheng, Jun Zhou

摘要

AI 生成总结
Ring-linear 模型系列,包括 Ring-mini-linear-2.0 和 Ring-flash-linear-2.0,采用结合线性和 Softmax 注意力的混合架构,以降低推理成本并提高训练效率。
在这份技术报告中,我们介绍了环形线性模型系列,具体包括 Ring-mini-linear-2.0 和 Ring-flash-linear-2.0。 Ring-mini-linear-2.0 包含 16B 参数和 957M 激活,而 Ring-flash-linear-2.0 包含 104B 参数和 6.1B 激活。两种模型都采用混合架构, 有效集成了线性注意力机制和 softmax 注意力机制,显著降低了长上下文推理场景中的 I/O 和计算开销。与 32 亿参数的密集模型相比,该系列模型将推理成本降低了 1/10,与原始 Ring 系列相比,成本也降低了 50% 以上。 此外,通过系统地探索混合架构中不同注意力机制的比例,我们确定了当前最优的模型结构。 另外,通过利用我们自主研发的高性能 FP8 算子库——灵河,整体训练效率提高了 50%。 得益于训练和推理引擎算子的高度对齐,模型在强化学习阶段可以进行长期、稳定、 高效的优化,在多个具有挑战性的复杂推理基准测试中始终保持 SOTA 性能。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

在这份技术报告中,我们介绍了 Ring-linear 模型系列,具体包括 Ring-mini-linear-2.0 和 Ring-flash-linear-2.0。Ring-mini-linear-2.0 包含 16B 参数和 957M 激活,而 Ring-flash-linear-2.0 包含 104B 参数和 6.1B 激活。这两种模型都采用了混合架构,有效集成了线性注意力和 softmax 注意力,显著降低了长上下文推理场景中的 I/O 和计算开销。与 32 亿参数的密集模型相比,该系列将推理成本降低了 1/10,与原始 Ring 系列相比,成本也降低了 50% 以上。此外,通过系统探索混合架构中不同注意力机制的比例,我们确定了当前最优的模型结构。此外,通过利用我们自主开发的高性能 FP8 算子库——灵核,整体训练效率提高了 50%。得益于训练和推理引擎算子之间的高度对齐,模型在强化学习阶段可以进行长期、稳定、高效的优化,在多个具有挑战性的复杂推理基准测试中始终保持 SOTA 性能。

longfei lilongfei li
论文作者

高性能 FP8 算子库灵核:https://github.com/inclusionAI/linghe