基于正交匹配追踪的免训练分词器移植

发表
Charles GoddardCharles Goddard 提交
作者: Charles GoddardCharles Goddard, Fernando Fernandes Neto

摘要

我们提出了一种免训练方法,通过采用正交匹配追踪 (OMP) 重建未见过的词元嵌入,从而在预训练大型语言模型 (LLM) 中移植分词器。具体而言,我们分两个阶段将每个词汇外词元近似为共享词元的稀疏线性组合:首先,在一个小型的共享锚定词元词典的帮助下,在捐赠嵌入空间中计算每个新词元的表示;然后将这些相同的稀疏系数转移回基础模型的嵌入空间。在两项具有挑战性的跨分词器任务——LlamatoMistral NeMo (12B) 和 QwentoLlama (1B) 上,我们发现 OMP 在多个基准测试中实现了基础模型性能的最佳零样本保持,而其他零样本方法则显著下降。与基线(零初始化、均值初始化以及现有方法如 WECHSEL, FOCUS, ZETT)相比,OMP 始终实现最佳的整体性能,有效地弥合了大的分词器差异,无需梯度更新。我们的分析进一步指出,不匹配的数值分词方案是保持数学推理能力的关键挑战。这种技术使得预训练模型的权重可以直接与新的分词器一起重复使用,从而促进跨分词器知识蒸馏、推测解码、集成、合并以及特定领域词汇的适应。我们将我们的方法集成到开源工具 mergekit-tokensurgeon 中,用于事后词汇对齐。
查看 arXiv 页面查看 PDF

评论

Charles GoddardCharles Goddard
论文作者
论文提交者

一种无需训练的方法,用于在预训练语言模型之间移植分词器。