⏶217
LLM的思维链推理是海市蜃楼吗?一个数据分布视角
发表
由
Chengshuai Zhao 提交

作者:
Chengshuai Zhao,
Zhen Tan,
Pingchuan Ma,
Dawei Li,
Bohan Jiang,
Yancheng Wang, Yingzhen Yang, Huan Liu


摘要
思维链(CoT)提示已被证明可以提高大型语言模型(LLM)在各种任务上的性能。通过这种方法,LLM 在提供答案之前似乎会产生类似人类的推理步骤(又称 CoT 推理),这通常导致人们认为它们参与了深思熟虑的推理过程。然而,一些初步发现表明 CoT 推理可能比看起来更肤浅,这促使我们进一步探索。在本文中,我们通过数据分布的角度研究 CoT 推理,并调查 CoT 推理是否反映了从分布内数据中学到的结构化归纳偏差,从而使模型能够有条件地生成与训练期间看到的近似的推理路径。因此,其有效性从根本上受到训练数据和测试查询之间分布差异程度的限制。通过这个视角,我们从三个维度剖析 CoT 推理:任务、长度和格式。为了调查每个维度,我们设计了 DataAlchemy,一个隔离和受控的环境,用于从头开始训练 LLM,并在各种分布条件下系统地探测它们。我们的结果表明,CoT 推理是一种脆弱的海市蜃楼,当它超出训练分布时就会消失。这项工作更深入地理解了 CoT 推理失败的原因和时间,强调了实现真正和可泛化推理的持续挑战。
我们建议从数据分布的角度重新审视CoT推理:CoT推理反映了从同分布数据中学习到的结构化归纳偏置,使模型能够有条件地生成近似于训练过程中所见的推理路径。因此,其有效性从根本上受到训练数据和测试查询之间分布差异程度的限制。以此为指导,我们从三个维度剖析CoT推理:任务、长度和格式。
我们引入了DataAlchemy,一个独立的实验框架,它能够从头开始训练LLM并系统地探测CoT推理。这种受控设置允许我们隔离和分析分布变化对CoT推理的影响,而不会受到大规模预训练期间学习到的复杂模式的干扰。