⏶9

利用负面信号：从教师数据中进行强化蒸馏以用于LLM推理

05月30日发表

06月02日由 Tongyan Hu 提交

作者: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi Xu, Wei Chu, Yuan Qi

摘要

模型蒸馏的最新进展表明，来自高级推理模型（如DeepSeek-R1、OpenAI的o1）的数据可以有效地将复杂的推理能力转移到更小、更高效的学生模型中。然而，标准做法采用拒绝采样，丢弃不正确的推理示例——这些数据虽有价值却常未充分利用。本文解决了关键问题：如何有效利用正向和负向蒸馏推理轨迹，以在离线环境中最大化LLM的推理性能？为此，我们提出了两阶段框架——强化蒸馏（REDI）。第一阶段通过监督微调（SFT）从正向轨迹中学习。第二阶段通过我们提出的REDI目标，利用正向和负向轨迹进一步完善模型。这个新颖的目标是一个简单、无参考的损失函数，在此蒸馏背景下优于DPO和SimPO等既定方法。我们的实证评估表明，在数学推理任务上，REDI优于基线拒绝采样SFT或SFT结合DPO/SimPO。值得注意的是，Qwen-REDI-1.5B模型仅使用来自公开Open-R1数据集的13.1万个正向和负向示例进行后训练，在MATH-500（pass@1）上取得了83.1%的得分。其性能在各种数学推理基准上与DeepSeek-R1-Distill-Qwen-1.5B（一个使用80万专有数据进行后训练的模型）持平或超越，为使用公开可用数据离线后训练的1.5B模型树立了新的最先进水平。

查看 arXiv 页面查看 PDF

Tongyan Hu

论文提交者

关于将负面推理痕迹纳入蒸馏的有趣讨论

Shuyao Xu

论文作者

我们引入了强化蒸馏（REDI），这是一种证明不正确（负面）推理示例对蒸馏有价值的方法。我们使用 REDI 训练的 Qwen-REDI-1.5B 模型，在离线使用开放数据进行后训练的模型中，为数学推理设定了新的最先进水平。

利用负面信号：从教师数据中进行强化蒸馏以用于LLM推理

摘要

评论