LLM的思维链推理是海市蜃楼吗?一个数据分布视角

发表
Chengshuai ZhaoChengshuai Zhao 提交
作者: Chengshuai ZhaoChengshuai Zhao, Zhen TanZhen Tan, PingchuanMaPingchuan Ma, Dawei LiDawei Li, Bohan JiangBohan Jiang, Yancheng WangYancheng Wang, Yingzhen Yang, Huan Liu

摘要

思维链(CoT)提示已被证明可以提高大型语言模型(LLM)在各种任务上的性能。通过这种方法,LLM 在提供答案之前似乎会产生类似人类的推理步骤(又称 CoT 推理),这通常导致人们认为它们参与了深思熟虑的推理过程。然而,一些初步发现表明 CoT 推理可能比看起来更肤浅,这促使我们进一步探索。在本文中,我们通过数据分布的角度研究 CoT 推理,并调查 CoT 推理是否反映了从分布内数据中学到的结构化归纳偏差,从而使模型能够有条件地生成与训练期间看到的近似的推理路径。因此,其有效性从根本上受到训练数据和测试查询之间分布差异程度的限制。通过这个视角,我们从三个维度剖析 CoT 推理:任务、长度和格式。为了调查每个维度,我们设计了 DataAlchemy,一个隔离和受控的环境,用于从头开始训练 LLM,并在各种分布条件下系统地探测它们。我们的结果表明,CoT 推理是一种脆弱的海市蜃楼,当它超出训练分布时就会消失。这项工作更深入地理解了 CoT 推理失败的原因和时间,强调了实现真正和可泛化推理的持续挑战。
查看 arXiv 页面查看 PDF

评论

Chengshuai ZhaoChengshuai Zhao
论文作者
论文提交者

我们建议从数据分布的角度重新审视CoT推理:CoT推理反映了从同分布数据中学习到的结构化归纳偏置,使模型能够有条件地生成近似于训练过程中所见的推理路径。因此,其有效性从根本上受到训练数据和测试查询之间分布差异程度的限制。以此为指导,我们从三个维度剖析CoT推理:任务、长度和格式。

#1 illustration.png

我们引入了DataAlchemy,一个独立的实验框架,它能够从头开始训练LLM并系统地探测CoT推理。这种受控设置允许我们隔离和分析分布变化对CoT推理的影响,而不会受到大规模预训练期间学习到的复杂模式的干扰。

#2 framework.png

Dawei LiDawei Li
论文作者

@librarian-bot

Michael BarryMichael Barry

通过实验性的试错,我早就怀疑是这种情况(它已经知道答案,并编织出一条轨迹来得出其预设的答案,以适应一种推理风格,因此我将“推理”归类为一种提示增强形式),尽管我没有足够的知识来将其形式化。感谢这项研究,我期待完整阅读它。

Chengshuai ZhaoChengshuai Zhao
论文作者
论文提交者

感谢您的关注!我们志同道合!

RosswillRosswill

i believe LLM are becoming too specialized in the current state of ai, a new reasoning path has too appear sooner or later.

Chengshuai ZhaoChengshuai Zhao
论文作者
论文提交者

让我们期待LLM推理的新视野!