⏶14
从字节到思想:使用自回归 U-Net 进行语言建模
发表
由
Badr Youbi Idrissi 提交
作者: Mathurin Videau, Badr Youbi Idrissi, Alessandro Leite, Marc Schoenauer, Olivier Teytaud, David Lopez-Paz
摘要
分词对输入文本施加了固定的粒度,这固定了语言模型对数据的操作方式及其预测的未来范围。字节对编码(BPE)及类似方案一次性地分割文本,构建一个静态词汇表,并使模型受限于该选择。我们通过引入一种自回归U-Net来放宽这种僵化性,该网络在训练时学习嵌入自己的词元。该网络读取原始字节,将其汇聚成单词,然后是单词对,接着是最多4个单词,从而使其对序列具有多尺度视图。在更深的阶段,模型必须预测更远的未来——预测接下来的几个单词而不是下一个字节——因此更深的阶段侧重于更广泛的语义模式,而较早的阶段则处理细粒度细节。在仔细调整和控制预训练计算量时,浅层层次结构可以与强大的BPE基线持平,而深层层次结构则显示出有前景的趋势。由于分词现在存在于模型内部,相同的系统可以处理字符级任务,并将在低资源语言之间传递知识。
我们提出了 AU-Net:一个自回归 U-Net,它将分词集成到模型内部,将原始字节池化为单词,然后再池化为词组。所得架构将大部分精力集中在计算对应更大意义单元的潜在向量上。
与 @byoubii 共同完成
池化在每个分割点(单词、每2个单词等)保留一个向量。上采样使用位置特定的线性层复制这些粗粒度向量,并通过残差连接将它们合并,从而产生一个自回归U-Net (AU-Net)。
这种层级结构充当隐式多词元预测:无需额外的损失函数或预测头。层级结构的不同层处理不同的粒度,从而在保持自回归连贯性的同时实现未来预测。
我们的 AU-Net 在大多数评估中匹配或超越了强大的 BPE 基线。📊 (详见庞大的表格)
在我们的实验中,所有模型都通过超参数缩放定律进行了调整。在添加其自身的层级优势之前,AU-Net 与我们从 BPE 中能压榨出的最佳性能保持同步。
字节级训练有助于低资源语言。在 FLORES-200 上,AU-Net-2 在从许多低资源语言到英语的翻译中,平均开箱即用地获得了约 +4 BLEU,此处无需微调!
7/8 在未来的工作中,我们希望使 AU-Net 的层级更深,这样模型就可以将一小部分计算用于语法和拼写。模型应该思考下一个想法,而不是下一个词元。
8/8 论文和代码链接。请查阅!
📄 https://arxiv.org/abs/2506.14761
🛠https://github.com/facebookresearch/lingua/tree/main/apps/aunet