⏶7
LightReasoner:小型语言模型能否教会大型语言模型 推理?
发表
由
Xubin Ren 提交

作者:
Jingyuan Wang, Yankai Chen, Zhonghang Li, Chao Huang
摘要
AI 生成总结
LightReasoner 利用大型和小型语言模型之间的行为差异来识别和放大高价值推理时刻,在没有地面真实标签的情况下提高 LLM 的准确性和效率。大型语言模型 (LLM) 在推理方面取得了显著进展,通常通过监督微调 (SFT) 来实现。然而,SFT 资源密集,依赖于大型精选数据集、拒绝采样示范以及对所有 token 的统一优化,即使只有一小部分 token 具有有意义的学习价值。在这项工作中,我们探索了一个反直觉的想法:小型语言模型 (SLM) 能否通过揭示反映 LLM 独特优势的高价值推理时刻来教会大型语言模型 (LLM)?我们提出了 LightReasoner,一个新颖的框架,它利用更强的专家模型 (LLM) 和更弱的业余模型 (SLM) 之间的行为差异。LightReasoner 分两个阶段运行:(1) 采样阶段,确定关键推理时刻,并通过专家-业余对比构建捕捉专家优势的监督示例;(2) 微调阶段,将专家模型与这些提炼的示例对齐,增强其推理能力。在七个数学基准测试中,LightReasoner 在提高准确率高达 28.1% 的同时,将时间消耗降低了 90%,采样问题减少了 80%,微调 token 使用量减少了 99%,所有这些都不依赖于真实标签。通过将较弱的 SLM 转化为有效的教学信号,LightReasoner 提供了一种可扩展且资源高效的方法来提高 LLM 的推理能力。代码可在以下网址获取:https://github.com/HKUDS/LightReasoner
LightReasoner 是一个轻量级且资源高效的学习框架,它将较弱的语言模型转化为有效的教学信号,用于强化更强的模型。