利用负面信号:从教师数据中进行强化蒸馏以用于LLM推理

发表
Tongyan HuTongyan Hu 提交
作者: Shuyao XuShuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

摘要

模型蒸馏的最新进展表明,来自高级推理模型(如DeepSeek-R1、OpenAI的o1)的数据可以有效地将复杂的推理能力转移到更小、更高效的学生模型中。然而,标准做法采用拒绝采样,丢弃不正确的推理示例——这些数据虽有价值却常未充分利用。本文解决了关键问题:如何有效利用正向和负向蒸馏推理轨迹,以在离线环境中最大化LLM的推理性能?为此,我们提出了两阶段框架——强化蒸馏(REDI)。第一阶段通过监督微调(SFT)从正向轨迹中学习。第二阶段通过我们提出的REDI目标,利用正向和负向轨迹进一步完善模型。这个新颖的目标是一个简单、无参考的损失函数,在此蒸馏背景下优于DPO和SimPO等既定方法。我们的实证评估表明,在数学推理任务上,REDI优于基线拒绝采样SFT或SFT结合DPO/SimPO。值得注意的是,Qwen-REDI-1.5B模型仅使用来自公开Open-R1数据集的13.1万个正向和负向示例进行后训练,在MATH-500(pass@1)上取得了83.1%的得分。其性能在各种数学推理基准上与DeepSeek-R1-Distill-Qwen-1.5B(一个使用80万专有数据进行后训练的模型)持平或超越,为使用公开可用数据离线后训练的1.5B模型树立了新的最先进水平。
查看 arXiv 页面查看 PDF

评论

Tongyan HuTongyan Hu
论文提交者

关于将负面推理痕迹纳入蒸馏的有趣讨论

Shuyao XuShuyao Xu
论文作者

我们引入了强化蒸馏REDI),这是一种证明不正确(负面)推理示例对蒸馏有价值的方法。我们使用 REDI 训练的 Qwen-REDI-1.5B 模型,在离线使用开放数据进行后训练的模型中,为数学推理设定了新的最先进水平