多token预测需要寄存器

发表
Anastasios GerontopoulosAnastasios Gerontopoulos 提交
作者: Anastasios GerontopoulosAnastasios Gerontopoulos, Spyros Gidaris, Nikos Komodakis

摘要

多 token 预测已成为一种有前景的改进语言模型预训练的目标,但其优势并未能始终泛化到其他设置,例如微调。在本文中,我们提出了 MuToR,一种简单有效的多 token 预测方法,它将可学习的寄存器 token 交错到输入序列中,每个寄存器 token 都负责预测未来的目标。与现有方法相比,MuToR 提供了几个关键优势:它只引入了极少量的额外参数,不需要改变架构——确保了与现成的预训练语言模型的兼容性——并与下一 token 预训练目标保持一致,使其特别适合监督微调。此外,它自然地支持可扩展的预测范围。我们在广泛的用例中展示了 MuToR 的有效性和多功能性,包括监督微调、参数高效微调 (PEFT) 和预训练,涵盖语言和视觉领域的具有挑战性的生成任务。我们的代码将发布在:https://github.com/nasosger/MuToR
查看 arXiv 页面查看 PDF
多token预测需要寄存器

评论

Anastasios GerontopoulosAnastasios Gerontopoulos
论文作者
论文提交者

我们提出了一种新颖的多token预测方法,该方法利用可学习的寄存器token在训练期间预测未来的token。