⏶26
RADLADS:大规模快速注意力蒸馏到线性注意力解码器
发表
由
Dan Goldstein 提交
作者:
Daniel Goldstein, Eric Alcaide,
Janna Lu, Eugene Cheah
摘要
我们提出了大规模快速注意力蒸馏到线性注意力解码器(RADLADS),这是一种将softmax注意力Transformer快速转换为线性注意力解码器模型的协议,同时还介绍了两种新的RWKV变体架构,以及从流行的Qwen2.5开源模型(7B、32B和72B大小)转换而来的模型。我们的转换过程仅需要3.5亿至7亿个tokens,少于用于训练原始教师模型token总数的0.005%。按照当前价格计算,将模型转换为我们的72B线性注意力模型的成本不到2000美元,但在推理时的质量仍接近原始Transformer。这些模型在其规模的线性注意力模型标准基准测试集上取得了最先进的下游性能。我们在HuggingFace上发布了所有模型,遵循Apache 2.0许可,但72B模型除外,它们也受Qwen许可协议的约束。模型地址:https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 训练代码地址:https://github.com/recursal/RADLADS-paper


RADLADS 可以快速将基于 softmax 注意力的 Transformer 模型转换为线性注意力模型,同时保持较高的模型质量!我们提出了两种新的基于 RWKV 的架构,以促进这种转换,并详细描述了蒸馏过程和超参数。我们希望这将通过减少预训练的负担,帮助其他研究人员快速大规模测试新的注意力架构。