用于反蒸馏的推理痕迹的信息保持重构

发表
Jiayu DingJiayu Ding 提交
作者: Jiayu Ding, Lei CuiLei Cui, Li Dong, Nanning Zheng, Furu Wei

摘要

AI 生成总结
PART 重构推理轨迹,以在破坏大型语言模型中未经授权的蒸馏的同时保留信息。
大型语言模型(LLM)的最新进展表明,延长推理链的长度可以显著提高复杂任务的性能。虽然揭示这些推理过程有助于用户更好地理解、验证和从模型的解决问题过程中学习,但这也使它们极易受到未经授权的提取。为了减轻这种风险,专有模型提供商通常会采取积极的保护策略,例如用简短的摘要代替详细的推理,这剥夺了用户宝贵的中间信息。为了解决这种权衡,我们提出了PART,一种信息保留的、反提取的推理过程重构方法。受人类理解推理过程与LLM如何利用它们进行监督微调之间的差异的启发,我们设计了一种简单而有效的两步重构方法:移除自我对话行为并重新排序子结论。一个小型辅助模型被训练来执行这种重构,计算开销极小。大量的实验表明,PART在各种推理基准上,在不同大小和类型的学生模型中始终能有效阻止提取。例如,在使用重构后的推理过程进行训练时,即使是一个大型32B学生模型在AIME 2024上的性能也从54.17下降到46.88,相当于下降了13.5%。
查看 arXiv 页面查看 PDF

评论

Jiayu DingJiayu Ding
论文提交者

通过重新组织推理过程,我们可以干扰即使是大型 32B 学生模型的知识蒸馏,同时仍然保留推理过程中包含的信息。