⏶9

技能定向自适应训练

10月11日发表

10月14日由 Yinghui He 提交

作者: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora

摘要

AI 生成总结

一种新的微调策略STAT，利用教师模型的元认知来识别和解决学生模型的技能差距，从而提高了模型在分布内和分布外基准测试上的性能。

语言模型在对与其训练集（例如 MATH）相似的数据进行标准监督微调（SFT）时，通常几乎没有改进（即“饱和”）。我们引入了一种新的微调策略 STAT，通过使用更强的 LLM 的元认知能力作为教师来训练一个学生模型。教师使用任务_d_a_t_a_来创建任务所需的技能列表，然后为每个数据点标注其所需的技能（Didolkar et al., 2024）。通过监控学生的回答，教师会为学生创建一个“缺失技能档案”，跟踪他们在回答中应用每个技能的失败频率。我们通过两种方式利用这一思想构建修改后的训练集。在 STAT-Sel 中，教师使用现有的训练示例集，但根据“缺失技能档案”自适应地重新加权这些示例。在 STAT-Syn 中，教师合成涉及缺失技能的额外示例。在对 Llama 和 Qwen 模型进行的广泛实验中，我们的方法在 MATH 数据集上的改进高达 7.5%，而 SFT 仅提供有限的增益。此外，STAT 在开箱即用的基准（例如 AIME24/25、AMC23 等）上的性能平均提高了 4.6%。至关重要的是，我们发现 STAT 与 GRPO（Shao et al., 2024）的 RL 是互补的：在 STAT 改进模型以解决技能差距后，GRPO 可以进一步提升性能。我们得出结论，针对技能的自适应训练应广泛改进当前的训练流程。我们的代码可在：https://github.com/princeton-pli/STAT 获取。

查看 arXiv 页面查看 PDF

Yinghui He

论文提交者

我们引入了一种新的训练范式——技能目标自适应训练 (STAT)，该范式提供了一条克服 SFT 饱和并提升 LLM 泛化能力的原则性途径。

1️⃣ 当前瓶颈当模型在与预训练分布相似的数据上进行训练时，监督微调 (SFT) 常常会达到平台期——这是在 MATH 等基准上观察到的饱和现象。

2️⃣ 我们的方法：STAT 我们引入了技能目标自适应训练 (STAT)，这是一种新的微调范式，它利用更强大的 LLM 的元认知作为教师。教师识别任务所需的技能，跟踪学生模型在哪里遇到困难，并构建一个缺失技能配置文件。 • STAT-Sel 根据缺失的技能自适应地重新加权现有示例。 • STAT-Syn 合成针对这些差距的新示例。

3️⃣ 结果在 Llama 和 Qwen 模型上，STAT 实现了： • MATH 上提升 +7.5%（相比 SFT 的微小增益） • 在分布外基准（AIME24/25、AMC23 等）上平均提升 +4.6% 此外，STAT 与强化学习（例如 GRPO）互补，表明在 RL 之前解决技能差距可以进一步放大下游收益。

技能定向自适应训练

摘要

评论