⏶5
直接多令牌解码
发表
由
Weizhi Wang 提交

作者: Xuan Luo,
Weizhi Wang, Xifeng Yan

摘要
AI 生成总结
直接多 token 解码 (DMTD) 通过仅使用后期层进行 token 生成来加速大型语言模型的推理,从而在性能损失极小的情况下实现显著的加速。解码器独占的 Transformer 因其强大的性能已成为大型语言模型 (LLM) 的标准架构。最近的研究表明,在预训练的 LLM 中,早期、中期和晚期层可能扮演不同的角色:早期层专注于理解输入上下文,中期层处理任务特定处理,晚期层将抽象表示转换为输出 token。我们假设,一旦表示经过早期和中期层的处理,由此产生的隐藏状态可能包含足够的信息来仅使用晚期层支持多个 token 的生成,从而无需反复遍历早期和中期层。我们将这种推理范例称为直接多 token 解码 (DMTD)。与投机解码不同,我们的方法不引入额外的参数、辅助例程或生成后验证。尽管在一个有限的数据集上进行了训练,但经过微调的 DMTD Qwen3-4B 模型已经取得了令人鼓舞的结果,在性能损失很小的情况下实现了高达 2 倍的加速。此外,正如我们的缩放分析所示,随着训练数据集的增大,其性能有望进一步提高。
Decoder-only transformers 因其强大的性能已成为大型语言模型(LLMs)的标准架构。最近的研究表明,在预训练的 LLMs 中,早期、中期和晚期层可能扮演不同的角色:早期层专注于理解输入上下文,中期层处理任务特定的处理,晚期层将抽象表示转换为输出 token。我们假设,一旦表示经过早期和中期层的处理,由此产生的隐藏状态可能包含足够的信息来仅使用晚期层生成多个 token,而无需反复遍历早期和中期层。我们将这种推理范式称为直接多 token 解码(DMTD)。与投机解码不同,我们的方法不引入额外的参数、辅助例程或生成后验证。尽管在有限的数据集上进行了训练,但经过微调的 DMTD Qwen3-4B 模型已经取得了可喜的成果,在性能损失很小的情况下实现了高达 2 倍的速度提升。此外,正如我们的缩放分析所示,其性能预计会随着更大的训练数据集而进一步提高。