LLM中的分词约束:符号和算术推理限制研究

发表
xiang wyatt zhangxiang wyatt zhang 提交
作者: xiang wyatt zhangXiang Zhang, Juntai Cao, Jiaqi Wei, Yiwei Xu, Chenyu YouChenyu You

摘要

分词(Tokenization)是语言模型中的第一个计算层——而且常常被低估。虽然思维链(CoT)提示使 Transformer 模型能够通过外部化中间步骤来近似循环计算,但我们表明这种推理的成功从根本上受限于分词输入的结构。这项工作对分词方案,特别是字节对编码(BPE)等子词方法如何通过合并或模糊原子推理单元来阻碍符号计算进行了理论和实证研究。我们引入了 Token Awareness 的概念,以形式化不良的 token 粒度如何破坏逻辑对齐,并阻止模型泛化符号过程。通过在算术和符号任务上的系统评估,我们证明了 token 结构显著影响推理性能,即使使用 CoT 也会导致失败,而原子对齐的格式则解锁了强大的泛化能力,使得小型模型(例如 GPT-4o-mini)在结构化推理中表现优于大型系统(例如 o1)。我们的发现表明,LLM 中的符号推理能力并非纯粹是架构性的,而是深受 token 级别表示的影响。
查看 arXiv 页面查看 PDF

评论

xiang wyatt zhangxiang wyatt zhang
论文作者
论文提交者

对分词器对模型推理能力的深入研究