系统-1.5 推理:利用动态捷径遍历语言和隐空间

发表
Bang LiuBang Liu 提交
作者: Xiaoqiang Wang, Suyuchen WangSuyuchen Wang, Yun Zhu, Bang Liu

摘要

思维链 (CoT) 推理使大型语言模型 (LLM) 能够超越快速的系统-1 响应,并进行深思熟虑的系统-2 推理。然而,由于冗长的中间输出,这带来了显著的低效率。最近的潜在空间推理方法通过对隐藏状态进行操作而无需解码成语言,提高了效率,然而,它们统一处理所有步骤,未能区分关键推导和辅助步骤,导致计算资源的次优利用。在本文中,我们提出了 System-1.5 推理,这是一种自适应推理框架,通过在潜在空间中的快捷路径动态分配跨推理步骤的计算。具体来说,System-1.5 推理引入了两种类型的动态快捷路径。模型深度快捷路径 (DS) 通过让非关键标记通过轻量级适配器分支提前退出,同时允许关键标记继续通过更深的 Transformer 层,沿垂直深度自适应推理。步骤快捷路径 (SS) 跨解码步骤重用隐藏状态,以跳过琐碎的步骤并在潜在空间中进行水平推理。训练 System-1.5 推理涉及一个两阶段的自蒸馏过程:首先将自然语言 CoT 蒸馏为潜在空间连续思维,然后将完整路径的系统-2 潜在推理蒸馏为自适应快捷路径 (System-1.5 推理)。在推理任务上的实验证明了我们方法的出色性能。例如,在 GSM8K 上,System-1.5 推理实现了与传统 CoT 微调方法相当的推理性能,同时将推理速度提高了 20 多倍,并平均减少了 92.31% 的标记生成。
查看 arXiv 页面查看 PDF

评论

Bang LiuBang Liu
论文提交者

思维链(CoT)推理使大型语言模型(LLMs)能够超越快速的系统1响应,并进行深思熟虑的系统2推理。然而,这带来的代价是由于冗长的中间输出导致的显著低效。最近的隐空间推理方法通过在隐状态上操作而无需解码成语言,从而提高了效率,然而它们对所有步骤一视同仁,未能区分关键推导与辅助步骤,导致计算资源的次优使用。在本文中,我们提出了系统1.5推理,这是一个自适应推理框架,它通过隐空间中的快捷路径动态地在推理步骤中分配计算量。具体来说,系统1.5推理引入了两种动态快捷方式。模型深度快捷方式(DS)通过让非关键token通过轻量级适配器分支提前退出,同时允许关键token继续通过更深的Transformer层,从而自适应地沿垂直深度进行推理。步骤快捷方式(SS)在解码步骤之间重用隐状态,以跳过琐碎的步骤,并在隐空间中进行水平推理。系统1.5推理的训练过程包括一个两阶段的自蒸馏过程:首先将自然语言CoT蒸馏为隐空间连续思考,然后将全路径系统2隐空间推理蒸馏为自适应快捷路径(系统1.5推理)。在推理任务上的实验表明,我们的方法性能卓越。例如,在GSM8K上,系统1.5推理取得了媲美传统CoT微调方法的推理性能,同时将推理加速了20倍以上,并平均减少了92.31%的token生成量。