⏶39
缺失前提加剧过度思考:推理模型是否正在丧失批判性思维能力?
04月09日发表
04月10日由
Tianyi Zhou 提交

作者:
Chenrui Fan, Ming Li,
Lichao Sun,
Tianyi Zhou

摘要
我们发现,推理 LLM 的响应长度,无论是通过强化学习还是监督学习训练,对于前提缺失 (MiP) 的病态问题都会急剧增加,最终导致冗余和无效的思考。这种新引入的场景在很大程度上加剧了一般的过度思考问题,我们将其命名为 MiP-过度思考。这种失败与“测试时缩放定律”相悖,但在我们策划的多个包含 MiP 的数据集上已被广泛观察到,表明廉价过度思考的危害以及缺乏批判性思维。令人惊讶的是,未专门为推理训练的 LLM 在 MiP 场景中表现出更好的性能,产生更短的响应,从而快速识别病态查询。这暗示了当前推理 LLM 训练配方的一个关键缺陷,即它没有充分鼓励高效思考,导致思考模式的滥用。为了进一步调查此类失败背后的原因,我们对不同类型的 LLM 进行了推理长度、过度思考模式和批判性思维位置的细粒度分析。此外,我们扩展的消融研究表明,过度思考通过推理模型响应的蒸馏具有传染性。这些结果提高了对过度思考的理解,并为缓解该问题提供了新的见解。

评论

论文作者
论文提交者
此评论已隐藏。