SIM-CoT: 监督隐式思维链

发表
Xilin WeiXilin Wei 提交
作者: Xilin WeiXilin Wei, Xiaoran LiuXiaoran Liu, Yuhang ZangYuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi WangJiaqi Wang, Xipeng Qiu, Dahua Lin

摘要

AI 生成总结
SIM-CoT 是一个即插即用的训练模块,它引入了步级监督来稳定和丰富隐式思维链方法的潜在推理空间,从而提高了性能和效率。
隐式思维链(CoT)方法为大型语言模型(LLM)中的显式CoT推理提供了一种有前途的、计算效率高的方法,但持续的性能差距限制了隐式CoT的应用。我们通过扩展隐式CoT方法的计算预算,识别出一个核心的潜在不稳定性问题:当我们增加隐式推理令牌的数量以提高性能时,训练过程通常会变得不稳定并崩溃。我们的分析表明,这种不稳定性源于潜在表示变得同质化并失去其语义多样性,这是现有隐式CoT方法中步级监督不足造成的失败。为了解决这个问题,我们提出了SIM-CoT,一个即插即用的训练模块,它引入步级监督来稳定和丰富潜在的推理空间。具体来说,SIM-CoT在训练期间使用一个辅助解码器,将每个隐式令牌与其相应的显式推理步骤对齐,确保潜在状态捕获不同且有意义的信息。提出的辅助解码器在推理期间被移除,从而在不增加额外开销的情况下保持了隐式CoT方法的计算效率。此外,辅助解码器通过将每个潜在令牌投影到显式推理词汇表中,提供了隐式推理的可解释性,从而实现了语义角色的逐步可视化和诊断。SIM-CoT显著提高了各种隐式CoT方法的域内准确性和域外稳定性,在GPT-2上将Coconut等基线提高了+8.2%,在LLaMA-3.1 8B上将CODI提高了+3.0%。SIM-CoT展现出强大的可扩展性,在GPT-2上以2.3倍的令牌效率超越了显式CoT基线2.1%,同时大幅缩小了与LLaMA-3.1 8B等大型模型上的性能差距。
查看 arXiv 页面查看 PDF

评论

Xilin WeiXilin Wei
论文作者
论文提交者

隐式思维链(CoT)方法为 LLM 中的显式 CoT 推理提供了一种有前途的、令牌效率高的方式,但持续的性能差距限制了隐式 CoT 的应用。通过扩展隐式 CoT 方法的计算预算,我们识别出一个核心的潜在不稳定性问题:随着我们增加隐式推理令牌的数量以提高性能,训练过程通常会变得不稳定并崩溃。我们的分析表明,这种不稳定性源于潜在表示变得同质化并失去语义多样性,这是现有隐式 CoT 方法中步级监督不足导致的问题。为解决此问题,我们提出了 SIM-CoT,一个即插即用的训练模块,它引入步级监督来稳定和丰富潜在推理空间。具体来说,SIM-CoT 在训练过程中使用辅助解码器将每个隐式 token 与其对应的显式推理步骤对齐,确保潜在状态捕获独特且有意义的信息。提出的辅助解码器在推理时被移除,从而在不增加额外开销的情况下保持了隐式 CoT 方法的计算效率。此外,辅助解码器通过将每个潜在 token 投影到显式推理词汇表中,提供了隐式推理的可解释性,从而实现了语义角色的每一步可视化和诊断。SIM-CoT 显著提高了各种隐式 CoT 方法的领域内准确性和领域外稳定性,在 GPT-2 上将 Coconut 等基线提升了 +8.2%,在 LLaMA-3.1 8B 上将 CODI 提升了 +3.0%。SIM-CoT 展现了强大的可扩展性,在 GPT-2 上以 2.3 倍的令牌效率超越了显式 CoT 基线 2.1%,同时显著缩小了在 LLaMA-3.1 8B 等更大模型上的性能差距。代码:https://github.com/InternLM/SIM-CoT。

Adina YakefuAdina Yakefu

嘿 @Wiselnn - 感谢分享!如果您和其他作者能够通过您的 HF 帐户认领论文,那就太好了:)