POSS:位置专家为推测解码生成更好的草稿

发表
Chengsong HuangChengsong Huang 提交
作者: Langlin HuangLanglin Huang, Chengsong Huang, Jixuan Leng, Di Huang, Jiaxin Huang

摘要

推测解码通过使用小型草稿模型预测多个令牌,并使用大型目标模型并行验证这些令牌来加速大型语言模型 (LLM) 推理。最近的研究利用目标模型的隐藏状态来提高草稿模型预测的准确性。然而,现有方法由于草稿模型生成特征中的错误累积,导致后续位置的草稿令牌预测质量下降。在本文中,我们提出了位置专家 (PosS),它由多个位置专用草稿层组成,用于生成指定位置的令牌。位置专家大大提高了每个草稿轮次中后续位置的令牌接受率,因为每个专家只需专注于处理一定程度的草稿模型特征偏差。在 Llama-3-8B-Instruct 和 Llama-2-13B-chat 六个数据集上的实验结果表明,PosS 在平均接受长度和加速比方面有效地优于基线。我们的代码库可在 https://github.com/shrango/PosS 获取。
查看 arXiv 页面查看 PDF

评论

Chengsong HuangChengsong Huang
论文提交者

推测解码通过使用小型草稿模型预测多个令牌,并使用大型目标模型并行验证这些令牌来加速大型语言模型(LLM)推理。最近的研究利用目标模型的隐藏状态来提高草稿模型的预测准确性。然而,现有方法由于草稿模型生成特征中的误差累积,导致草稿令牌在后续位置的预测质量下降。在本文中,我们提出了位置专家(POSS),它由多个位置专用的草稿层组成,用于在指定位置生成令牌。位置专家大大提高了每次草稿轮次中后续位置的令牌接受率,因为每个专家只需要专注于处理一定程度的草稿模型特征偏差。在 Llama-3-8B-Instruct 和 Llama-2-13B-chat 六个数据集上的实验结果表明,POSS 在平均接受长度和加速比方面有效地优于基线。我们的代码库可在 https://github.com/shrango/PosS 获取。