⏶2
一个Token价值超过1,000个Token: 通过低秩克隆实现高效知识蒸馏
发表
由
Jitai Hao 提交
作者:
Jitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu
摘要
训练高性能小型语言模型(SLM)成本仍然高昂,即使使用知识蒸馏和来自更大教师模型的剪枝技术。现有工作经常面临三个关键挑战:(1)硬剪枝造成的信息损失,(2)表示对齐效率低下,以及(3)信息丰富激活的利用不足,特别是来自前馈网络(FFN)的激活。为了解决这些挑战,我们引入了 Low-Rank Clone (LRC),这是一种高效的预训练方法,用于构建旨在与强大教师模型达到行为等效的 SLM。LRC 训练一组低秩投影矩阵,这些矩阵共同实现软剪枝(通过压缩教师权重)和激活克隆(通过对齐学生激活,包括 FFN 信号,与教师的激活)。这种统一设计最大限度地提高了知识迁移,同时无需显式的对齐模块。对开源教师模型(例如 Llama-3.2-3B-Instruct、Qwen2.5-3B/7B-Instruct)进行的广泛实验表明,LRC 在仅使用 200 亿 token 的情况下,达到或超越了使用数万亿 token 训练的最先进模型,实现了超过 1000 倍的训练效率。我们的代码和模型检查点可在 https://github.com/CURRENTF/LowRankClone 和 https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf 获取。
训练高性能的小型语言模型(SLM)仍然成本高昂。我们引入了低秩克隆(LRC),一种知识蒸馏方法,该方法利用低秩矩阵同时对教师模型权重进行软剪枝,并对学生模型激活进行对齐,有效地“克隆”了强大的教师模型。LRC 与最先进的模型性能相当或超越了它们,仅使用200亿 token(相比之下,其他方法使用数万亿),实现了超过1000倍的训练效率。