⏶9
技能定向自适应训练
发表
由
Yinghui He 提交

作者: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
摘要
AI 生成总结
一种新的微调策略STAT,利用教师模型的元认知来识别和解决学生模型的技能差距,从而提高了模型在分布内和分布外基准测试上的性能。语言模型在对与其训练集(例如 MATH)相似的数据进行标准监督微调(SFT)时,通常几乎没有改进(即“饱和”)。我们引入了一种新的微调策略 STAT,通过使用更强的 LLM 的元认知能力作为教师来训练一个学生模型。教师使用任务_d_a_t_a_来创建任务所需的技能列表,然后为每个数据点标注其所需的技能(Didolkar et al., 2024)。通过监控学生的回答,教师会为学生创建一个“缺失技能档案”,跟踪他们在回答中应用每个技能的失败频率。我们通过两种方式利用这一思想构建修改后的训练集。在 STAT-Sel 中,教师使用现有的训练示例集,但根据“缺失技能档案”自适应地重新加权这些示例。在 STAT-Syn 中,教师合成涉及缺失技能的额外示例。在对 Llama 和 Qwen 模型进行的广泛实验中,我们的方法在 MATH 数据集上的改进高达 7.5%,而 SFT 仅提供有限的增益。此外,STAT 在开箱即用的基准(例如 AIME24/25、AMC23 等)上的性能平均提高了 4.6%。至关重要的是,我们发现 STAT 与 GRPO(Shao et al., 2024)的 RL 是互补的:在 STAT 改进模型以解决技能差距后,GRPO 可以进一步提升性能。我们得出结论,针对技能的自适应训练应广泛改进当前的训练流程。我们的代码可在:https://github.com/princeton-pli/STAT 获取。

我们引入了一种新的训练范式——技能目标自适应训练 (STAT),该范式提供了一条克服 SFT 饱和并提升 LLM 泛化能力的原则性途径。
1️⃣ 当前瓶颈 当模型在与预训练分布相似的数据上进行训练时,监督微调 (SFT) 常常会达到平台期——这是在 MATH 等基准上观察到的饱和现象。
2️⃣ 我们的方法:STAT 我们引入了技能目标自适应训练 (STAT),这是一种新的微调范式,它利用更强大的 LLM 的元认知作为教师。教师识别任务所需的技能,跟踪学生模型在哪里遇到困难,并构建一个缺失技能配置文件。 • STAT-Sel 根据缺失的技能自适应地重新加权现有示例。 • STAT-Syn 合成针对这些差距的新示例。
3️⃣ 结果 在 Llama 和 Qwen 模型上,STAT 实现了: • MATH 上提升 +7.5%(相比 SFT 的微小增益) • 在分布外基准(AIME24/25、AMC23 等)上平均提升 +4.6% 此外,STAT 与强化学习(例如 GRPO)互补,表明在 RL 之前解决技能差距可以进一步放大下游收益。