Thinkless:大语言模型学习何时思考

发表
Gongfan FangGongfan Fang 提交
作者: Gongfan FangGongfan Fang, Xinyin MaXinyin Ma, WangxinchaoXinchao Wang

摘要

能够进行扩展思维链推理的推理语言模型(Reasoning Language Models)在需要复杂逻辑推理的任务中展现了卓越的性能。然而,对所有查询都应用复杂的推理常常导致巨大的计算效率低下,尤其当许多问题可以通过直接的方法解决时。这引出了一个悬而未决的问题:LLM 能否学会何时进行思考?为了回答这个问题,我们提出了 Thinkless,一个可学习的框架,它使 LLM 能够根据任务复杂度和模型能力自适应地选择短形式或长形式推理。Thinkless 在强化学习范式下进行训练,并使用两个控制 token,<short> 用于简洁响应,<think> 用于详细推理。我们方法的核心是解耦分组相对策略优化(DeGRPO)算法,它将混合推理的学习目标分解为两个组成部分:(1) 控制 token 损失,用于控制推理模式的选择;(2) 响应损失,用于提高生成答案的准确性。这种解耦的公式可以对每个目标的贡献进行细粒度控制,稳定训练并有效防止在标准 GRPO 中观察到的崩溃。在 Minerva Algebra、MATH-500 和 GSM8K 等多个基准测试上,Thinkless 能够将长链思考的使用量减少 50% 至 90%,显著提高了推理语言模型的效率。代码可在 https://github.com/VainF/Thinkless 访问。
查看 arXiv 页面查看 PDF

评论

Gongfan FangGongfan Fang
论文作者
论文提交者

GitHub:https://github.com/VainF/Thinkless