⏶39

缺失前提加剧过度思考：推理模型是否正在丧失批判性思维能力？

04月09日发表

04月10日由 Tianyi Zhou 提交

作者: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

摘要

我们发现，推理 LLM 的响应长度，无论是通过强化学习还是监督学习训练，对于前提缺失 (MiP) 的病态问题都会急剧增加，最终导致冗余和无效的思考。这种新引入的场景在很大程度上加剧了一般的过度思考问题，我们将其命名为 MiP-过度思考。这种失败与“测试时缩放定律”相悖，但在我们策划的多个包含 MiP 的数据集上已被广泛观察到，表明廉价过度思考的危害以及缺乏批判性思维。令人惊讶的是，未专门为推理训练的 LLM 在 MiP 场景中表现出更好的性能，产生更短的响应，从而快速识别病态查询。这暗示了当前推理 LLM 训练配方的一个关键缺陷，即它没有充分鼓励高效思考，导致思考模式的滥用。为了进一步调查此类失败背后的原因，我们对不同类型的 LLM 进行了推理长度、过度思考模式和批判性思维位置的细粒度分析。此外，我们扩展的消融研究表明，过度思考通过推理模型响应的蒸馏具有传染性。这些结果提高了对过度思考的理解，并为缓解该问题提供了新的见解。

查看 arXiv 页面查看 PDF

Tianyi Zhou

论文作者

论文提交者

此评论已隐藏。

Tianyi Zhou

论文作者

论文提交者

Screenshot 2025-04-09 at 10.51.47 PM.png