⏶34
OThink-R1: 内在快/慢思维模式切换,旨在缓解过度推理
发表
由
Shengjia Zhang 提交
作者:
Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang,
Jun Wang
摘要
最近先进的大型推理模型 (LRM) 利用扩展的思维链 (CoT) 推理来解决复杂任务,取得了最先进的性能。尽管它们取得了成功,但我们发现了一个关键问题:LRM 解决的大部分简单任务也可以由非推理 LLM 使用明显更少的 tokens 来解决,这表明复杂的推理并非总是必要的。为了解决这个问题,我们系统地分析了 LRM 的推理轨迹,并提出了一种利用已识别范例和 LLM-Judge 将这些轨迹分类为冗余推理或必要推理的方法。我们引入了 OThink-R1,一种在保留逻辑有效性的同时修剪冗余推理步骤的方法。OThink-R1 动态地对直接问题采用非思考模式(快速思考),同时对复杂问题采用深思熟虑的思考模式(慢速思考)。数学和问答任务的实验表明,OThink-R1 平均减少了近 23% 的推理冗余,而没有损害准确性,为高效推理模型提供了实用指导。代码可在 https://github.com/AgenticIR-Lab/OThink-R1 获取。
OThink-R1 提供了一个框架,使大型语言模型(LLMs)能够进行混合推理模式,即快速思考(非思考)或慢速思考。
Code: https://github.com/AgenticIR-Lab/OThink-R1
arxiv: https://arxiv.org/abs/2506.02397