zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表

发表
Saibo-creatorSaibo-creator 提交
作者: Saibo-creatorSaibo Geng, nathan ranchinNathan Ranchin, Yunzhen yao, Maxime Peyrard, Chris Wendler, Michael Gastpar, Robert West

摘要

分词效率在大型语言模型 (LLM) 的性能和成本中起着关键作用,然而大多数模型依赖于为通用语料库优化的静态分词器。这些分词器的固定词汇通常无法适应领域或语言特定的输入,导致更长的词元序列和更高的计算成本。我们引入了 zip2zip,一个框架,它使 LLM 能够在推理时动态调整词元词汇表,从而减少生成的词元数量,进而加快推理速度。zip2zip 包含三个关键组件:(1) 基于 Lempel-Ziv-Welch (LZW) 压缩的分词器,该分词器能够即时将词元增量压缩成可重用的“超级词元”;(2) 一个嵌入层,用于在运行时计算新形成的超级词元的嵌入;以及 (3) 一个因果语言建模变体,它训练模型在经过超级词元化和压缩的序列上运行。我们展示了通过参数高效微调,一个现有 LLM 可以在 10 个 GPU 小时内被“zip2zip 化”。最终的 zip2zip LLM 有效地学会在推理时使用超级词元,将输入和输出序列长度减少 20-60%,并显著改善了推理延迟。
查看 arXiv 页面查看 PDF
zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表
zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表
zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表
zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表
zip2zip:通过词元压缩为语言模型实现推理时自适应词汇表

评论

Saibo-creatorSaibo-creator
论文作者
论文提交者

🚀 第一个动态分词器来了!

Token 数量正在膨胀——输入太长,输出生成慢,成本不断上升。非英语语言在固定分词器下更是雪上加霜。

我们推出了 zip2zip——一个框架,使大语言模型能够通过 LZW 风格的压缩在推理时动态调整其分词器。更少的 Token,更快的推理,更低的成本——所有这些都不会牺牲模型质量。

🔍 如何实现?

• 我们动态地将 Token 压缩成可重用的超 Token

• 在运行时动态嵌入它们

• 训练模型在压缩空间中进行推理

✅ 兼容现有 LLM

📉 Token 数量减少 20-60%

⚡ 提高推理延迟

查看我们的论文,敬请期待——代码和模型即将发布!

📄 arXiv 预印本 https://arxiv.org/abs/2506.01084

🔗 https://github.com/epfl-dlab/zip2zip

来自 EPFL 数据科学实验室 🇨🇭