通过对单一问题进行批判性微调,释放预训练大语言模型的推理潜力

发表
yuboyubo 提交
作者: yuboYubo Wang, Ping Nie, Kai Zou, Lijun Wu, Wenhu ChenWenhu Chen

摘要

我们已经看到,像 Qwen-Math、MiMo 和 Phi-4 这样的强大 LLM 拥有从预训练阶段继承的巨大推理潜力。通过强化学习 (RL),这些模型在推理任务上可以显著改进。最近的研究表明,即使在单个问题上进行强化学习,也能释放这些模型的推理能力。然而,强化学习不仅成本高昂,而且不稳定。即使是单次强化学习也需要数百个 GPU 小时。这提出了一个关键问题:是否存在一种更有效的方法来释放这些强大基础 LLM 的推理潜力?在这项工作中,我们证明仅在一个问题上进行评论微调 (CFT) 就能有效释放 LLM 的推理潜力。我们的方法通过收集单个问题的多种模型生成解决方案,并使用教师 LLM 提供详细评论来构建评论数据。我们使用 CFT 数据对从 1.5B 到 14B 参数的 Qwen 和 Llama 系列模型进行微调,并观察到在各种推理任务上都有显著的性能提升。例如,仅需 5 个 GPU 小时的训练,Qwen-Math-7B-CFT 在六个数学基准测试中平均提升了 15%,在三个逻辑推理基准测试中平均提升了 16%。这些结果与强化学习的结果相当甚至更优,而计算量减少了 20 倍。消融研究揭示了单次 CFT 在不同提示问题上的鲁棒性。这些结果强调了单次 CFT 是一种简单、通用且计算效率高的方法,可用于释放现代 LLM 的推理能力。
查看 arXiv 页面查看 PDF

评论

yuboyubo
论文作者
论文提交者

我们发现,在一个问题上进行有监督微调,可以达到与在一个问题上进行强化学习(RL)相似的性能提升,且计算量减少20倍!在论文中,我们展示了对1个问题进行“批评微调”(Critique Fine-Tuning)可以将六个数学基准(MATH-500、AMC、OlympiadBench等)的平均准确率在不同尺寸模型上提升5-15%。我们进一步在BBEH的逻辑推理任务(如因果推理、消歧等)上进行了测试,并展示了15%的相似性能提升。因此,我们认为CFT是一种更高效的方法,可以释放预训练大语言模型(LLM)的隐藏推理能力!

Project Website: https://tiger-ai-lab.github.io/One-Shot-CFT/

Github: https://github.com/TIGER-AI-Lab/One-Shot-CFT

HF Models: https://huggingface.co/collections/TIGER-Lab/one-shot-cft-683fbb4d2bcf698dbea8fb21

Dataset: https://huggingface.co/datasets/TIGER-Lab/One-Shot-CFT-Data