日期片段:时间推理中分词的一个隐藏瓶颈

发表
Gagan BhatiaGagan Bhatia 提交
作者: Gagan BhatiaGagan Bhatia, Maxime Peyrard, Wei Zhao

摘要

现代BPE分词器经常将日历日期拆分成无意义的片段,例如 20250312 → 202、503、12,这会增加token数量并掩盖鲁棒时间推理所需的内在结构。在这项工作中,我们 (1) 引入了一个简单而可解释的指标,称为日期碎片率,它衡量分词器在多位数日期组成部分上的保留程度;(2) 发布了DateAugBench,这是一个包含6500个示例的测试套件,涵盖了三个时间推理任务:基于上下文的日期解析、格式无关性难题以及跨历史、当代和未来时期的日期算术;(3) 通过层级探查和因果注意力跳跃分析,揭示了一种涌现的日期抽象机制,大型语言模型通过该机制将年、月和日的片段拼接起来进行时间推理。我们的实验表明,过度碎片化与在非常见日期(如历史日期和未来日期)上高达10点的准确率下降相关。此外,我们发现模型越大,用于修复日期碎片的涌现日期抽象过程完成得越快。最后,我们观察到LLMs遵循的组装日期片段的推理路径,这通常与人类的解释(年→月→日)不同。
查看 arXiv 页面查看 PDF

评论

Gagan BhatiaGagan Bhatia
论文作者
论文提交者

日期片段:分词对时间推理造成的隐藏瓶颈

现代BPE分词器经常将日历日期分割成无意义的片段,例如,20250312 被分割成 202、503、12,这增加了token数量,模糊了鲁棒时间推理所需的固有结构。在这项工作中,我们(1)引入了一个简单但可解释的指标,称为日期片段比率,用于衡量分词器保留多位数字日期组件的忠实程度;(2)发布了 DateAugBench,这是一个包含6500个示例的套件,涵盖了三种时间推理任务:基于上下文的日期解析、格式不变性谜题以及跨历史、当代和未来范围的日期算术;(3)通过逐层探测和因果注意力跳跃分析,揭示了一种涌现的日期抽象机制,大型语言模型通过该机制将年、月和日组件的片段拼接起来进行时间推理。我们的实验表明,过度碎片化会导致在历史日期和未来日期等不常见日期上准确率下降高达10个百分点。此外,我们发现模型越大,修复日期片段的涌现日期抽象能力越快实现。最后,我们观察到大型语言模型遵循一种组装日期片段的推理路径,该路径通常与人类解读不同(年 → 月 → 日)。