⏶9

通过启发式适应和超级词元学习实现语言模型中的分词器灵活性

05月14日发表

05月16日由 Adarsh AS 提交

作者: Shaurya Sharthak, Vinayak Pahalwan, Adithya Kamath, Adarsh AS Adarsh Shirawalmath

摘要

预训练语言模型 (LLMs) 常常受限于其固定的分词方案，这会导致效率低下和性能限制，特别是对于多语言或专业应用。这种分词器锁定带来了严峻挑战。克服这一问题的标准方法通常需要高昂的计算资源。尽管采用启发式初始化进行分词器替换旨在减轻这一负担，但现有方法通常需要全面的残差微调，并且可能仍无法完全保留语义细微之处或充分解决潜在的压缩效率低下问题。我们的框架引入了两项创新：第一，Tokenadapt，一种模型无关的分词器移植方法；第二，新颖的针对多词Supertoken的预分词学习，以增强压缩并减少碎片化。Tokenadapt 通过一种混合启发式方法初始化新的唯一词元嵌入，该方法结合了两种方式：一种是基于使用旧分词器的子词分解的局部估计，另一种是利用原始词汇表中语义最相似的前k个词元的全局估计。这种方法旨在保留语义，同时显著减少再训练需求。经验研究验证了这两项贡献：移植启发式方法成功初始化了唯一词元，显著优于传统基线以及包括 Transtokenizer 和 ReTok 在内的复杂方法，而我们的 Supertoken 则取得了显著的压缩收益。我们的零样本困惑度结果表明，与 ReTok 和 TransTokenizer 基线相比，TokenAdapt 混合初始化在不同的基础模型和新训练的目标分词器上始终产生更低的困惑度比率。与 ReTok 相比，TokenAdapt 通常显著降低了整体困惑度比率，在这些综合得分上至少带来了 2 倍的改进。

查看 arXiv 页面查看 PDF

Adarsh AS

论文作者

论文提交者

预训练语言模型 (LLMs) 绑定到固定的分词器。这种“分词器锁定”损害了效率和准确性，特别是在多语言或领域特定的场景下。替换分词器很有吸引力，但现有方法需要昂贵的端到端微调并且经常丢失信息。我们提出了一个两部分框架，可以在保持低成本的同时实现高质量。

TokenAdapt🛠️：

一种与模型无关的程序，将新的分词器移植到冻结的 LLM 中。独特的 token 通过混合启发式方法进行初始化，结合了 (a) 旧词汇表中子词分解的局部近似和 (b) 来自语义上最接近的前 k 个 token 的全局近似。

Supertokens⚡：

一个轻量级预分词阶段，学习常用的多词单元，提高压缩率并缩短序列长度。

在跨多个基础模型和目标分词器的零样本评估中，TokenAdapt 将困惑度比率降低了高达 2 倍，相比 ReTok 并且在没有任何额外训练的情况下优于 TransTokenizer。当与 supertokens 结合使用时，序列长度下降，进一步减少了计算量。

我们的结果表明，分词器移植和学习到的 supertokens 可以释放自定义分词器的优势，同时避免了对整个模型进行重新训练的巨大成本。

通过启发式适应和超级词元学习实现语言模型中的分词器灵活性

摘要

评论