⏶18
修剪不意外:通过首个令牌惊奇度进行高效代码推理
发表
由
Yuling 提交

作者: Wenhao Zeng, Yaoning Wang, Chao Hu,
Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

摘要
最近,大型推理模型(LRM)通过扩展思维链(CoT)的长度,在代码推理方面展现出卓越的能力。然而,过长的推理轨迹在训练成本、推理延迟和部署可行性方面带来了巨大的挑战。尽管出现了各种CoT压缩方法来解决这一挑战,但它们面临着固有的权衡:令牌级方法常常破坏语法和逻辑连贯性,而基于困惑度的步长级方法无法可靠地捕获逻辑上关键的推理步骤。在本文中,我们提出了ASAP(Anchor-guided, Surprisal-based Pruning),一种新颖的粗到细的CoT压缩框架。ASAP首先执行锚点引导剪枝以保留核心推理结构,这有效地减少了后续处理的搜索空间。然后,它通过基于新颖的首次令牌惊奇度指标选择逻辑上必要的推理步骤来实现逻辑感知剪枝。最后,ASAP教导模型在推理时自主生成并利用这些简洁的CoT,从而在编码任务中实现高效推理。实验表明,ASAP在多个代码生成基准上实现了最先进的准确性,同时大幅降低了训练和推理成本。在具有挑战性的LiveCodeBench v4_v5基准上,我们的方法与最强的基线相比,将令牌生成减少了23.5%,推理延迟减少了43.5%,同时在Pass@1中实现了36.19%的竞争性准确率。我们的结果突出了构建强大而高效的LRM的一个有前途的方向。
代码和模型可在 https://github.com/Zengwh02/ASAP 获取