⏶6

LiteStage：用于多阶段推理的延迟感知层跳过

10月16日发表

10月17日由 Jiwon Song 提交

作者: Beomseok Kang, Jiwon Song, Jae-Joon Kim

摘要

AI 生成总结

LiteStage 是一种延迟感知的层跳过框架，通过优化层预算和抑制冗余输出令牌来增强多阶段推理，以最小的准确性损失实现显著的加速。

多阶段推理已成为一种有效策略，通过将复杂问题分解为顺序子阶段来增强小型语言模型的推理能力。然而，这会以增加延迟为代价。我们观察到，现有的自适应加速技术，例如层跳过，由于两个关键挑战：(1) 跳过敏感度的阶段性变化，以及 (2) 生成冗余的输出 token，因此在这种情况下难以平衡效率和准确性。为了解决这些问题，我们提出了 LiteStage，一种用于多阶段推理的延迟感知层跳过框架。LiteStage 结合了分配最佳层预算的阶段性离线搜索，以及一个基于置信度的在线生成提前退出机制，以抑制不必要的解码。在三个基准（例如，OBQA、CSQA 和 StrategyQA）上的实验表明，LiteStage 在准确率损失小于 4.0% 的情况下实现了高达 1.70 倍的加速，优于先前无训练的层跳过方法。

查看 arXiv 页面查看 PDF

Jiwon Song

论文作者

论文提交者

LiteStage 是一个面向多阶段推理的延迟感知层跳过框架，通过结合阶段优化和在线早期退出，在效率和准确性之间取得平衡，实现了高达 1.7 倍的速度提升，而准确率损失不到 4%。

LiteStage：用于多阶段推理的延迟感知层跳过

摘要

评论