⏶19
高效的预训练长度缩放
发表
由
Wu Bohong 提交
作者:
Bohong Wu, Shen Yan, Sijun Zhang,
Jianqiao Lu,
Yutao Zeng, Ya Wang, Xun Zhou

摘要
大型语言模型最近的进展表明了后训练阶段长度缩放的有效性,但其在预训练阶段的潜力仍未得到充分探索。我们提出了并行隐藏解码 Transformer (PHD-Transformer),这是一种新颖的框架,可以在预训练期间实现高效的长度缩放,同时保持推理效率。PHD-Transformer 通过一种创新的 KV 缓存管理策略来实现这一点,该策略区分原始令牌和隐藏解码令牌。通过仅保留原始令牌的 KV 缓存用于长距离依赖关系,并在使用后立即丢弃隐藏解码令牌,我们的方法在实现有效长度缩放的同时保持了与普通 Transformer 相同的 KV 缓存大小。为了进一步提升性能,我们引入了两种优化变体:PHD-SWA 采用滑动窗口注意力以保留局部依赖关系,而 PHD-CSWA 实现块状滑动窗口注意力以消除预填充时间的线性增长。大量实验表明,在多个基准上持续取得了改进。
本文研究了高效的预训练长度缩放,其中首次提出,通过重复训练 token 来缩放预训练序列长度,可以稳健地提升预训练模型的性能。本文还采用了多种稀疏策略,以在缩放长度的同时保持 kv cache 的大小。总之,当预填充和解码的延迟损失在可接受范围内时,它观察到了可扩展的益处。