⏶50

Thinkless：大语言模型学习何时思考

05月19日发表

05月20日由 Gongfan Fang 提交

作者: Gongfan Fang, Xinyin Ma, Wangxinchao Xinchao Wang

摘要

能够进行扩展思维链推理的推理语言模型（Reasoning Language Models）在需要复杂逻辑推理的任务中展现了卓越的性能。然而，对所有查询都应用复杂的推理常常导致巨大的计算效率低下，尤其当许多问题可以通过直接的方法解决时。这引出了一个悬而未决的问题：LLM 能否学会何时进行思考？为了回答这个问题，我们提出了 Thinkless，一个可学习的框架，它使 LLM 能够根据任务复杂度和模型能力自适应地选择短形式或长形式推理。Thinkless 在强化学习范式下进行训练，并使用两个控制 token，<short> 用于简洁响应，<think> 用于详细推理。我们方法的核心是解耦分组相对策略优化（DeGRPO）算法，它将混合推理的学习目标分解为两个组成部分：(1) 控制 token 损失，用于控制推理模式的选择；(2) 响应损失，用于提高生成答案的准确性。这种解耦的公式可以对每个目标的贡献进行细粒度控制，稳定训练并有效防止在标准 GRPO 中观察到的崩溃。在 Minerva Algebra、MATH-500 和 GSM8K 等多个基准测试上，Thinkless 能够将长链思考的使用量减少 50% 至 90%，显著提高了推理语言模型的效率。代码可在 https://github.com/VainF/Thinkless 访问。

查看 arXiv 页面查看 PDF

Gongfan Fang

论文作者

论文提交者

GitHub：https://github.com/VainF/Thinkless

Thinkless：大语言模型学习何时思考

摘要

评论