直接多令牌解码

发表
Weizhi WangWeizhi Wang 提交
作者: Xuan Luo, Weizhi WangWeizhi Wang, Xifeng Yan

摘要

AI 生成总结
直接多 token 解码 (DMTD) 通过仅使用后期层进行 token 生成来加速大型语言模型的推理,从而在性能损失极小的情况下实现显著的加速。
解码器独占的 Transformer 因其强大的性能已成为大型语言模型 (LLM) 的标准架构。最近的研究表明,在预训练的 LLM 中,早期、中期和晚期层可能扮演不同的角色:早期层专注于理解输入上下文,中期层处理任务特定处理,晚期层将抽象表示转换为输出 token。我们假设,一旦表示经过早期和中期层的处理,由此产生的隐藏状态可能包含足够的信息来仅使用晚期层支持多个 token 的生成,从而无需反复遍历早期和中期层。我们将这种推理范例称为直接多 token 解码 (DMTD)。与投机解码不同,我们的方法不引入额外的参数、辅助例程或生成后验证。尽管在一个有限的数据集上进行了训练,但经过微调的 DMTD Qwen3-4B 模型已经取得了令人鼓舞的结果,在性能损失很小的情况下实现了高达 2 倍的加速。此外,正如我们的缩放分析所示,随着训练数据集的增大,其性能有望进一步提高。
查看 arXiv 页面查看 PDF

评论

Weizhi WangWeizhi Wang
论文作者
论文提交者

Decoder-only transformers 因其强大的性能已成为大型语言模型(LLMs)的标准架构。最近的研究表明,在预训练的 LLMs 中,早期、中期和晚期层可能扮演不同的角色:早期层专注于理解输入上下文,中期层处理任务特定的处理,晚期层将抽象表示转换为输出 token。我们假设,一旦表示经过早期和中期层的处理,由此产生的隐藏状态可能包含足够的信息来仅使用晚期层生成多个 token,而无需反复遍历早期和中期层。我们将这种推理范式称为直接多 token 解码(DMTD)。与投机解码不同,我们的方法不引入额外的参数、辅助例程或生成后验证。尽管在有限的数据集上进行了训练,但经过微调的 DMTD Qwen3-4B 模型已经取得了可喜的成果,在性能损失很小的情况下实现了高达 2 倍的速度提升。此外,正如我们的缩放分析所示,其性能预计会随着更大的训练数据集而进一步提高。

AnwarAnwar

@librarian-bot 推荐