⏶7
zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表
发表
由
Saibo-creator 提交

作者:
Saibo Geng,
Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West

摘要
分词效率在大型语言模型 (LLM) 的性能和成本中起着关键作用,然而大多数模型依赖于为通用语料库优化的静态分词器。这些分词器的固定词汇通常无法适应领域或语言特定的输入,导致更长的词元序列和更高的计算成本。我们引入了 zip2zip,一个框架,它使 LLM 能够在推理时动态调整词元词汇表,从而减少生成的词元数量,进而加快推理速度。zip2zip 包含三个关键组件:(1) 基于 Lempel-Ziv-Welch (LZW) 压缩的分词器,该分词器能够即时将词元增量压缩成可重用的“超级词元”;(2) 一个嵌入层,用于在运行时计算新形成的超级词元的嵌入;以及 (3) 一个因果语言建模变体,它训练模型在经过超级词元化和压缩的序列上运行。我们展示了通过参数高效微调,一个现有 LLM 可以在 10 个 GPU 小时内被“zip2zip 化”。最终的 zip2zip LLM 有效地学会在推理时使用超级词元,将输入和输出序列长度减少 20-60%,并显著改善了推理延迟。





🚀 第一个动态分词器来了!
Token 数量正在膨胀——输入太长,输出生成慢,成本不断上升。非英语语言在固定分词器下更是雪上加霜。
我们推出了 zip2zip——一个框架,使大语言模型能够通过 LZW 风格的压缩在推理时动态调整其分词器。更少的 Token,更快的推理,更低的成本——所有这些都不会牺牲模型质量。
🔍 如何实现?
✅ 兼容现有 LLM
📉 Token 数量减少 20-60%
⚡ 提高推理延迟
查看我们的论文,敬请期待——代码和模型即将发布!
📄 arXiv 预印本 https://arxiv.org/abs/2506.01084
🔗 https://github.com/epfl-dlab/zip2zip
来自 EPFL 数据科学实验室 🇨🇭