⏶66
数学推理能否提升通用LLM能力?理解LLM推理的可迁移性
发表
由
Xiang Yue 提交

作者: Maggie Huan, Yuetai Li,
Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig,
Xiang Yue


摘要
数学推理已成为大型语言模型(LLM)进步的标志性成就,新模型在 MATH 和 AIME 等基准测试中迅速超越了人类水平的表现。然而,随着数学排行榜每周不断刷新,我们不禁要问:这些进步反映的是更广泛的问题解决能力,还是仅仅是狭隘的过拟合?为了回答这个问题,我们评估了 20 多个开源推理调优模型,涵盖了广泛的任务集,包括数学、科学问答、智能体规划、编码和标准指令遵循。我们惊讶地发现,大多数在数学方面取得成功的模型未能将其优势迁移到其他领域。为了严谨地研究这一现象,我们对 Qwen3-14B 模型进行了对照实验,这些模型仅使用数学数据但采用了不同的调优方法。我们发现,强化学习(RL)调优的模型在跨领域泛化能力良好,而监督微调(SFT)调优的模型则经常遗忘通用能力。潜在空间表征和令牌空间分布漂移分析揭示,SFT 会导致显著的表征和输出漂移,而 RL 则保留了通用领域结构。我们的结果表明,有必要重新思考标准的后训练方法,特别是推进推理模型时对 SFT 蒸馏数据的依赖。
要点:
我们评估了超过20个开源推理调优模型,并惊讶地发现,大多数在数学领域取得成功的模型未能将其收益推广到其他领域。
我们发现强化学习(RL)调优模型在不同领域泛化良好,而监督微调(SFT)调优模型常常会遗忘通用能力。
潜在空间表示和令牌空间分布漂移分析表明,SFT会引起显著的表示和输出漂移,而RL则保留了通用领域结构。