⏶52
Set Block Decoding 是一种语言模型推理加速器
发表
由
Itai Gat 提交
作者: Itai Gat, Heli Ben-Hamu, Marton Havasi, Daniel Haziza, Jeremy Reizenstein, Gabriel Synnaeve, David Lopez-Paz, Brian Karrer, Yaron Lipman
摘要
AI 生成总结
Set Block Decoding 通过整合下一个 token 预测和掩码 token 预测来加速语言模型生成,从而实现未来 token 的并行采样,并在不牺牲准确性的情况下降低计算成本。自回归下一词元预测语言模型具有强大的功能,但在实际部署中面临严峻的挑战,特别是由于推理(尤其是解码阶段)的高计算和内存成本。我们提出了一种简单而灵活的范式——集合块解码(SBD),该范式通过在单一架构中集成标准的下一词元预测(NTP)和掩码词元预测(MATP)来加速生成。SBD允许模型并行采样多个、不一定连续的未来词元,这是与先前加速方法的一个关键区别。这种灵活性允许使用离散扩散文献中的先进求解器,在不牺牲准确性的情况下显著提高速度。SBD不需要架构更改或额外的训练超参数,与精确的KV缓存兼容,并且可以通过微调现有的下一词元预测模型来实现。通过微调Llama-3.1 8B和Qwen-3 8B,我们证明SBD在生成过程中所需的正向传递次数减少了3-5倍,同时实现了与同等NTP训练相同的性能。

我们提出了一种称为集合块解码的新范例,结合了下一个 token 预测和掩码(或离散扩散)模型,无需任何架构更改即可实现并行解码(速度提升 3-5 倍),并具有精确的 KV 缓存。性能与 NTP 相当!