⏶5

直接多令牌解码

10月13日发表

10月16日由 Weizhi Wang 提交

作者: Xuan Luo, Weizhi Wang, Xifeng Yan

摘要

AI 生成总结

直接多 token 解码 (DMTD) 通过仅使用后期层进行 token 生成来加速大型语言模型的推理，从而在性能损失极小的情况下实现显著的加速。

解码器独占的 Transformer 因其强大的性能已成为大型语言模型 (LLM) 的标准架构。最近的研究表明，在预训练的 LLM 中，早期、中期和晚期层可能扮演不同的角色：早期层专注于理解输入上下文，中期层处理任务特定处理，晚期层将抽象表示转换为输出 token。我们假设，一旦表示经过早期和中期层的处理，由此产生的隐藏状态可能包含足够的信息来仅使用晚期层支持多个 token 的生成，从而无需反复遍历早期和中期层。我们将这种推理范例称为直接多 token 解码 (DMTD)。与投机解码不同，我们的方法不引入额外的参数、辅助例程或生成后验证。尽管在一个有限的数据集上进行了训练，但经过微调的 DMTD Qwen3-4B 模型已经取得了令人鼓舞的结果，在性能损失很小的情况下实现了高达 2 倍的加速。此外，正如我们的缩放分析所示，随着训练数据集的增大，其性能有望进一步提高。

查看 arXiv 页面查看 PDF

Weizhi Wang

论文作者

论文提交者

Decoder-only transformers 因其强大的性能已成为大型语言模型（LLMs）的标准架构。最近的研究表明，在预训练的 LLMs 中，早期、中期和晚期层可能扮演不同的角色：早期层专注于理解输入上下文，中期层处理任务特定的处理，晚期层将抽象表示转换为输出 token。我们假设，一旦表示经过早期和中期层的处理，由此产生的隐藏状态可能包含足够的信息来仅使用晚期层生成多个 token，而无需反复遍历早期和中期层。我们将这种推理范式称为直接多 token 解码（DMTD）。与投机解码不同，我们的方法不引入额外的参数、辅助例程或生成后验证。尽管在有限的数据集上进行了训练，但经过微调的 DMTD Qwen3-4B 模型已经取得了可喜的成果，在性能损失很小的情况下实现了高达 2 倍的速度提升。此外，正如我们的缩放分析所示，其性能预计会随着更大的训练数据集而进一步提高。

Anwar

@librarian-bot 推荐

直接多令牌解码

摘要

评论