⏶22
General-Reasoner:提升跨领域 LLM 推理能力
发表
由
Xueguang Ma 提交
作者:
Xueguang Ma,
Qian Liu,
Dongfu Jiang,
Ge Zhang, Zejun Ma,
Wenhu Chen



摘要
强化学习(RL)最近在增强大型语言模型(LLM)的推理能力方面展示了强大的潜力。特别是 Deepseek-R1-Zero 引入的“Zero”强化学习,使得可以直接对基础 LLM 进行 RL 训练,而无需依赖中间的监督微调阶段。尽管取得了这些进展,当前针对 LLM 推理的工作主要集中在数学和编码领域,这很大程度上是由于数据丰富且答案易于验证。这限制了此类模型在更广泛领域的适用性和泛化能力,在这些领域,问题通常具有多样的答案表示,并且数据更为稀缺。在本文中,我们提出了 General-Reasoner,这是一种新颖的训练范式,旨在增强 LLM 在不同领域内的推理能力。我们的主要贡献包括:(1)通过网络爬取构建了一个包含可验证答案的大规模高质量问题数据集,涵盖了广泛的学科;(2)开发了一种基于生成模型的答案验证器,它用具备思维链(chain-of-thought)和上下文感知能力的验证器取代了传统的基于规则的验证。我们训练了一系列模型,并在涵盖物理、化学、金融、电子等广泛领域的各种数据集上对其进行了评估。我们在这些 12 个基准测试(例如 MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH 和 MATH AMC)上的全面评估表明,General-Reasoner 优于现有的基线方法,实现了强大且可泛化的推理性能,同时在数学推理任务中保持了卓越的有效性。
General-Reasoner 引入了一种新的训练范式,该范式利用多样化的网络抓取可验证推理数据以及一个紧凑的生成模型验证器,使大型语言模型能够在数学以外的广泛领域实现强大、泛化的推理能力。
https://tiger-ai-lab.github.io/General-Reasoner/