⏶4
BanditSpec: 基于多臂老虎机算法的适应性推测性解码
发表
由
Fengzhuo Zhang 提交
作者: Yunlong Hou, Fengzhuo Zhang, Cunxiao Du, Xuan Zhang, Jiachun Pan,
Tianyu Pang, Chao Du, Vincent Y. F. Tan,
Zhuoran Yang

摘要
预测解码已成为一种流行方法,用于加速大语言模型(LLMs)的推理过程,同时保持其卓越的文本生成性能。现有方法要么采用固定的预测解码配置,不考虑前缀 token;要么以离线或在线方式训练草稿模型,使其与上下文对齐。本文提出一种无需训练的在线学习框架,以便在文本生成过程中自适应地选择预测解码的超参数配置。我们首先将此超参数选择问题建模为多臂老虎机问题,并提出了一个通用的预测解码框架 BanditSpec。此外,本文设计并分析了两种基于 Bandit 的超参数选择算法 UCBSpec 和 EXP3Spec,它们以一个新的量——停止时间遗憾——进行评估。我们在随机和对抗性奖励设置下,对此遗憾给出了上界。通过推导信息论不可能结果,结果表明 UCBSpec 的遗憾性能在常数因子范围内是最优的。最后,使用 LLaMA3 和 Qwen2 进行的大量实证实验表明,我们的算法与现有方法相比是有效的,并且在模拟的具有多样化输入提示的真实 LLM 服务场景中,吞吐量接近于预言家最佳超参数。
推测解码已成为一种流行的方法,可以在保持大型语言模型(LLMs)出色的文本生成性能的同时加速其推理。先前的方法要么采用固定的推测解码配置,而不考虑前缀 tokens,要么离线或在线训练草稿模型以使其与上下文对齐。本文提出了一种无需训练的在线学习框架,用于在生成文本时自适应地选择推测解码的超参数配置。我们首先将超参数选择问题建模为多臂老虎机问题,并提供了一种通用的推测解码框架 BanditSpec。此外,还设计并分析了两种基于老虎机的超参数选择算法,UCBSpec 和 EXP3Spec,并从一个新的指标——停止时间遗憾的角度进行了衡量。我们在随机和对抗性奖励设置下给出了这种遗憾的上界。通过推导出一个信息论上的不可能结果,证明了 UCBSpec 的遗憾性能在通用常数范围内是最优的。最后,使用 LLaMA3 和 Qwen2 进行的广泛实证实验表明,与现有方法相比,我们的算法是有效的,并且在模拟的具有多样化输入提示的真实 LLM 服务场景中,吞吐量接近于已知最优超参数的吞吐量。