⏶10
Thinker:学习快思慢想
发表
由
Wenyu Du 提交
作者: Stephen Chung, Wenyu Du,
Jie Fu

摘要
最近的研究表明,通过将强化学习 (RL) 应用于数学和编程等领域的问答 (QA) 任务,可以提高大型语言模型 (LLMs) 的推理能力。凭借较长的上下文长度,LLMs 可能会学会执行搜索,这在 DeepSeek R1 中观察到的自我修正行为中得到了体现。然而,这种搜索行为往往不够精确且缺乏信心,导致冗长、冗余的回答,并凸显了直觉和验证方面的不足。受心理学中双重过程理论的启发,我们对 QA 任务进行了简单的修改,包括四个阶段:快速思考 (Fast Thinking),LLM 必须在严格的 token 预算内回答;验证 (Verification),模型评估其初始回答;慢速思考 (Slow Thinking),它通过更审慎的方式完善初始回答;以及总结 (Summarization),它将前一阶段的完善提炼成精确的步骤。我们提出的任务将 Qwen2.5-1.5B 的平均准确率从 24.9% 提高到 27.9%,将 DeepSeek-R1-Qwen-1.5B 的平均准确率从 45.9% 提高到 49.8%。值得注意的是,对于 Qwen2.5-1.5B,仅快速思考模式就达到了 26.8% 的准确率,使用了不到 1000 个 token,显示出显著的推理效率提升。这些发现表明,直觉和审慎推理是不同的、互补的系统,可以从有针对性的训练中获益。
最近的研究表明,通过将强化学习 (RL) 应用于数学和编程等领域的问答 (QA) 任务,可以提高大型语言模型 (LLM) 的推理能力。随着上下文长度的增加,LLM 可能会学会执行搜索,正如在 DeepSeek R1 中观察到的自我修正行为所表明的那样。然而,这种搜索行为往往不精确且缺乏信心,导致响应冗长、冗余,并突显出直觉和验证方面的不足。受心理学中双过程理论的启发,我们对 QA 任务进行了简单的修改,增加了四个阶段:快速思考(Fast Thinking),LLM 必须在严格的标记预算内回答;验证(Verification),模型评估其初始响应;慢速思考(Slow Thinking),模型更审慎地细化初始响应;以及总结(Summarization),模型将前一阶段的细化提炼成精确的步骤。我们提出的任务将 Qwen2.5-1.5B 的平均准确率从 24.9% 提高到 27.9%,将 DeepSeek-R1-Qwen-1.5B 的平均准确率从 45.9% 提高到 49.8%。值得注意的是,对于 Qwen2.5-1.5B,仅快速思考模式就达到了 26.8% 的准确率,使用了不到 1000 个标记,这表明推理效率大幅提高。这些发现表明,直觉和审慎推理是不同的、互补的系统,受益于有针对性的训练。