⏶9
利用负面信号:从教师数据中进行强化蒸馏以用于LLM推理
发表
由
Tongyan Hu 提交
作者:
Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi
摘要
模型蒸馏的最新进展表明,来自高级推理模型(如DeepSeek-R1、OpenAI的o1)的数据可以有效地将复杂的推理能力转移到更小、更高效的学生模型中。然而,标准做法采用拒绝采样,丢弃不正确的推理示例——这些数据虽有价值却常未充分利用。本文解决了关键问题:如何有效利用正向和负向蒸馏推理轨迹,以在离线环境中最大化LLM的推理性能?为此,我们提出了两阶段框架——强化蒸馏(REDI)。第一阶段通过监督微调(SFT)从正向轨迹中学习。第二阶段通过我们提出的REDI目标,利用正向和负向轨迹进一步完善模型。这个新颖的目标是一个简单、无参考的损失函数,在此蒸馏背景下优于DPO和SimPO等既定方法。我们的实证评估表明,在数学推理任务上,REDI优于基线拒绝采样SFT或SFT结合DPO/SimPO。值得注意的是,Qwen-REDI-1.5B模型仅使用来自公开Open-R1数据集的13.1万个正向和负向示例进行后训练,在MATH-500(pass@1)上取得了83.1%的得分。其性能在各种数学推理基准上与DeepSeek-R1-Distill-Qwen-1.5B(一个使用80万专有数据进行后训练的模型)持平或超越,为使用公开可用数据离线后训练的1.5B模型树立了新的最先进水平。
关于将负面推理痕迹纳入蒸馏的有趣讨论