LiteStage:用于多阶段推理的延迟感知层跳过

发表
Jiwon SongJiwon Song 提交
作者: Beomseok Kang, Jiwon SongJiwon Song, Jae-Joon Kim

摘要

AI 生成总结
LiteStage 是一种延迟感知的层跳过框架,通过优化层预算和抑制冗余输出令牌来增强多阶段推理,以最小的准确性损失实现显著的加速。
多阶段推理已成为一种有效策略,通过将复杂问题分解为顺序子阶段来增强小型语言模型的推理能力。然而,这会以增加延迟为代价。我们观察到,现有的自适应加速技术,例如层跳过,由于两个关键挑战:(1) 跳过敏感度的阶段性变化,以及 (2) 生成冗余的输出 token,因此在这种情况下难以平衡效率和准确性。为了解决这些问题,我们提出了 LiteStage,一种用于多阶段推理的延迟感知层跳过框架。LiteStage 结合了分配最佳层预算的阶段性离线搜索,以及一个基于置信度的在线生成提前退出机制,以抑制不必要的解码。在三个基准(例如,OBQA、CSQA 和 StrategyQA)上的实验表明,LiteStage 在准确率损失小于 4.0% 的情况下实现了高达 1.70 倍的加速,优于先前无训练的层跳过方法。
查看 arXiv 页面查看 PDF

评论

Jiwon SongJiwon Song
论文作者
论文提交者

LiteStage 是一个面向多阶段推理的延迟感知层跳过框架,通过结合阶段优化和在线早期退出,在效率和准确性之间取得平衡,实现了高达 1.7 倍的速度提升,而准确率损失不到 4%。