⏶6
通过自适应并行解码加速扩散大语言模型
发表
由
Daniel Israel 提交
作者:
Daniel Israel, Guy Van den Broeck, Aditya Grover
摘要
大型语言模型(LLM)的生成速度受到自回归解码的瓶颈限制,其中 token 是一个接一个地顺序预测的。理论上,扩散大型语言模型(dLLM)允许并行 token 生成,但在实践中,如果不显著牺牲质量,它们难以达到自回归模型的速度。因此,我们引入了自适应并行解码(APD),一种动态调整并行采样 token 数量的新方法。我们通过定义 dLLM 边际概率与小型辅助自回归模型下序列联合概率之间的乘法混合来实现这一点。这颠覆了推测解码的标准设置,推测解码的目标是从大型自回归验证器中通过小型模型起草来采样。我们通过启用 KV 缓存和限制遮罩输入的大小来进一步优化 APD。总而言之,我们的方法提出了三个可调参数,以灵活地权衡吞吐量和质量。我们表明,APD 在下游基准测试中提供了显著更高的吞吐量,同时质量下降最小。
通过自适应并行解码加速扩散大型语言模型(LLMs)