⏶7

zip2zip：通过词元压缩为语言模型实现推理时自适应词汇表

06月01日发表

06月03日由 Saibo-creator 提交

作者: Saibo Geng, Nathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West

摘要

分词效率在大型语言模型 (LLM) 的性能和成本中起着关键作用，然而大多数模型依赖于为通用语料库优化的静态分词器。这些分词器的固定词汇通常无法适应领域或语言特定的输入，导致更长的词元序列和更高的计算成本。我们引入了 zip2zip，一个框架，它使 LLM 能够在推理时动态调整词元词汇表，从而减少生成的词元数量，进而加快推理速度。zip2zip 包含三个关键组件：(1) 基于 Lempel-Ziv-Welch (LZW) 压缩的分词器，该分词器能够即时将词元增量压缩成可重用的“超级词元”；(2) 一个嵌入层，用于在运行时计算新形成的超级词元的嵌入；以及 (3) 一个因果语言建模变体，它训练模型在经过超级词元化和压缩的序列上运行。我们展示了通过参数高效微调，一个现有 LLM 可以在 10 个 GPU 小时内被“zip2zip 化”。最终的 zip2zip LLM 有效地学会在推理时使用超级词元，将输入和输出序列长度减少 20-60%，并显著改善了推理延迟。

查看 arXiv 页面查看 PDF

Saibo-creator

论文作者

论文提交者

🚀 第一个动态分词器来了！

Token 数量正在膨胀——输入太长，输出生成慢，成本不断上升。非英语语言在固定分词器下更是雪上加霜。

我们推出了 zip2zip——一个框架，使大语言模型能够通过 LZW 风格的压缩在推理时动态调整其分词器。更少的 Token，更快的推理，更低的成本——所有这些都不会牺牲模型质量。

🔍 如何实现？

• 我们动态地将 Token 压缩成可重用的超 Token

• 在运行时动态嵌入它们

• 训练模型在压缩空间中进行推理

✅ 兼容现有 LLM

📉 Token 数量减少 20-60%

⚡ 提高推理延迟

查看我们的论文，敬请期待——代码和模型即将发布！

📄 arXiv 预印本 https://arxiv.org/abs/2506.01084

🔗 https://github.com/epfl-dlab/zip2zip

来自 EPFL 数据科学实验室 🇨🇭

zip2zip：通过词元压缩为语言模型实现推理时自适应词汇表

摘要

评论