用于长生成高效推理的解码器-混合-解码器架构

发表
Liliang RenLiliang Ren 提交
作者: Liliang Ren, Congcong Chen, Haoran Xu, Young Jin KimYoung Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen

摘要

语言建模的最新进展表明,状态空间模型(SSM)在高效序列建模方面表现出色。尽管像 Samba 和编解码器-编解码器架构 YOCO 这样的混合架构已显示出比 Transformer 更优异的性能提升,但先前的工作尚未探讨 SSM 层之间表示共享的效率潜力。在本文中,我们引入了门控记忆单元(GMU),这是一种简单而有效的跨层高效记忆共享机制。我们将其应用于创建 SambaY,这是一种编解码器-混合-编解码器架构,它在交叉解码器中融入了 GMU,以共享来自基于 Samba 的自解码器的记忆读取状态。SambaY 显著提高了解码效率,保持了线性的预填充时间复杂度,并提升了长上下文性能,同时消除了对显式位置编码的需求。通过广泛的扩展实验,我们证明了我们的模型相较于强大的 YOCO 基线表现出显著更低的不可约损失,表明在大规模计算环境下具有卓越的性能可扩展性。我们最大且经差分注意力增强的模型 Phi4-mini-Flash-Reasoning,在 Math500、AIME24/25 和 GPQA Diamond 等推理任务上取得了比 Phi4-mini-Reasoning 显著更好的性能,且无需任何强化学习;同时,在 vLLM 推理框架下,它在 2K 长度的提示词和 32K 生成长度的条件下,提供了高达 10 倍的解码吞吐量。我们在开源数据上发布了我们的训练代码库:https://github.com/microsoft/ArchScale
查看 arXiv 页面查看 PDF

评论

Liliang RenLiliang Ren
论文提交者

我们引入了门控内存单元 (GMU)——一种简单而有效的跨层内存共享机制,实现了 Samba 和 YOCO 的高效融合。由此产生的解码器-混合-解码器架构 SambaY ⚡显著提升了解码效率,保持了线性的预填充时间,增强了长上下文性能,同时消除了对显式位置编码的需求。