赢得剪枝赌局:统一的方法,用于高效监督微调的联合样本和令牌剪枝

发表
jasmineWangjasmineWang 提交
作者: WangShaobo Wang, jasmineWangJiaming Wang, Jiajun ZhangJiajun Zhang, 王一Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang

摘要

AI 生成总结
Quadrant-based Tuning (Q-Tuning) 优化了大型语言模型监督微调中的样本和令牌修剪,以更少的数据取得了优越的性能。
随着监督微调(SFT)从轻量级的训练后步骤演变为计算密集型且规模可与训练中期相媲美的阶段,数据效率已成为在预算有限的情况下对齐大型语言模型(LLMs)的关键。现有的数据剪枝方法存在设计碎片化的问题:它们孤立地在样本级别或 token 级别进行操作,未能同时优化这两个维度。这种脱节导致了显著的低效——高价值样本可能仍然包含冗余的 token,而 token 级别的剪枝常常会丢弃嵌入在单个示例中的关键指令或纠正信号。为了解决这个瓶颈,我们引入了误差-不确定性(EU)平面,这是一个诊断框架,可以同时表征训练数据在样本和 token 方面的异构效用。基于这一见解,我们提出了基于象限的调优(Q-Tuning),一个统一的框架,可以策略性地协调样本剪枝和 token 剪枝。Q-Tuning 采用两阶段策略:首先,它执行样本级分类,以保留包含丰富信息性错误概念或校准信号的示例;其次,它应用不对称的 token 剪枝策略,使用一种上下文感知评分机制,专门从错误概念样本中修剪不太突出的 token,同时完整地保留校准样本。我们的方法在五个不同的基准测试中达到了新的最先进水平。值得注意的是,在 SmolLM2-1.7B 上,Q-Tuning 在仅使用原始训练数据 12.5% 的情况下,比完整数据 SFT 基线平均提高了 +38%。作为第一个能够持续超越完整数据训练的动态剪枝方法,Q-Tuning 为最大化预算受限的 LLM SFT 中的数据利用率提供了一个实用且可扩展的蓝图。
查看 arXiv 页面查看 PDF

评论

jasmineWangjasmineWang
论文作者
论文提交者

随着监督微调(SFT)从轻量级的后训练步骤演变为与中期训练规模相当的计算密集型阶段,数据效率已成为在预算紧张的情况下对齐大型语言模型(LLMs)的关键。现有的数据剪枝方法存在碎片化的设计:它们要么在样本级别,要么在标记级别孤立地运行,未能同时优化这两个维度。这种脱节导致了显著的低效率——高价值样本可能仍然包含冗余的标记,而标记级别的剪枝则常常丢弃嵌入在个体示例中的关键指令或纠正信号。为了解决这个瓶颈,我们引入了错误-不确定性(EU)平面,一个诊断框架,能够同时表征训练数据在样本和标记上的异构效用。基于这一洞察,我们提出了基于象限的调优(Q-Tuning),一个统一的框架,能够策略性地协调样本剪枝和标记剪枝。Q-Tuning采用两阶段策略:首先,它执行样本级别的分类,以保留包含信息性误解或校准信号的示例;其次,它应用非对称标记剪枝策略,使用上下文感知评分机制,仅从误解样本中修剪不那么突出的标记,同时完整保留校准样本。我们的方法在五个不同的基准测试中设定了新的最先进水平。值得注意的是,在SmolLM2-1.7B上,Q-Tuning仅使用原始训练数据的12.5%,就实现了比完整数据SFT基线高出+38%的平均改进。作为第一个能够持续超越完整数据训练的动态剪枝方法,Q-Tuning为在预算受限的LLM SFT中最大化数据利用率提供了一个实用且可扩展的蓝图。

jasmineWangjasmineWang
论文作者
论文提交者

方法
image
流水线

image

在指令数据集上的实验结果
使用12.5%的样本和50%的token,在LLaMA2-7B上比最佳剪枝基线高出3.3个点,在Mistral-7B上高出2.7个点。在更大的预算(50%的样本和70%的token)下,Q-Tuning进一步扩大了优势,分别比最强的基线高出2.4和3.7个点,同时紧密匹配了全数据集的性能。

Q_Tuning61_1920x2163
在推理数据集上的结果
Q-Tuning在推理基准测试中带来了持续的收益。在GSM8K上,它在25% × 70%的预算下大幅改进了LLaMA3-8B、Mistral-7B和SmolLM-1.7B,所有模型都超越了其全数据版本的性能。在更具挑战性的MATH基准测试中,Q-Tuning也在LLaMA3-8B和Mistral-7B上超越了最强的基线。

Q_Tuning62_1920x2163