⏶8
FLEXITOKENS:适用于演进语言模型的灵活分词方案
发表
由
Abraham Owodunni 提交
作者: Abraham Toluase Owodunni, Orevaoghene Ahia, Sachin Kumar
摘要
语言模型(LM)通过简单的微调很难适应新的数据分布。这是由于其子词分词器的僵化性,这些分词器在适应过程中通常保持不变。这种不灵活性常常导致分词效率低下,造成分布外领域、未见过的语言或文字的过度碎片化。在这项工作中,我们开发了带有可学习分词器的字节级语言模型,以使分词具有适应性。我们的模型包含一个子模块,该模块学习预测输入字节序列之间的边界,将其编码为可变长度的片段。现有的无分词器方法使用辅助损失来训练这个边界预测器,该损失在整个训练语料库上强制执行固定的压缩率,从而引入了一种新的僵化性。我们提出了 FLEXITOKENS,一种简化的训练目标,它在适应过程中能实现显著更大的灵活性。通过在多个多语言基准、形态多样的任务和领域上进行评估,我们证明与子词和其他基于梯度的分词器相比,FLEXITOKENS 能够持续减少词元(token)的过度碎片化,并在下游任务性能上实现高达 10% 的提升。我们实验的代码和数据将在 https://github.com/owos/flexitokens 上发布。
https://github.com/owos/flexitokens