General-Reasoner:提升跨领域 LLM 推理能力

发表
Xueguang MaXueguang Ma 提交
作者: Xueguang MaXueguang Ma, Qian LiuQian Liu, Dongfu JiangDongfu Jiang, Ge ZhangGe Zhang, Zejun Ma, Wenhu ChenWenhu Chen

摘要

强化学习(RL)最近在增强大型语言模型(LLM)的推理能力方面展示了强大的潜力。特别是 Deepseek-R1-Zero 引入的“Zero”强化学习,使得可以直接对基础 LLM 进行 RL 训练,而无需依赖中间的监督微调阶段。尽管取得了这些进展,当前针对 LLM 推理的工作主要集中在数学和编码领域,这很大程度上是由于数据丰富且答案易于验证。这限制了此类模型在更广泛领域的适用性和泛化能力,在这些领域,问题通常具有多样的答案表示,并且数据更为稀缺。在本文中,我们提出了 General-Reasoner,这是一种新颖的训练范式,旨在增强 LLM 在不同领域内的推理能力。我们的主要贡献包括:(1)通过网络爬取构建了一个包含可验证答案的大规模高质量问题数据集,涵盖了广泛的学科;(2)开发了一种基于生成模型的答案验证器,它用具备思维链(chain-of-thought)和上下文感知能力的验证器取代了传统的基于规则的验证。我们训练了一系列模型,并在涵盖物理、化学、金融、电子等广泛领域的各种数据集上对其进行了评估。我们在这些 12 个基准测试(例如 MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH 和 MATH AMC)上的全面评估表明,General-Reasoner 优于现有的基线方法,实现了强大且可泛化的推理性能,同时在数学推理任务中保持了卓越的有效性。
查看 arXiv 页面查看 PDF

评论

Xueguang MaXueguang Ma
论文作者
论文提交者

General-Reasoner 引入了一种新的训练范式,该范式利用多样化的网络抓取可验证推理数据以及一个紧凑的生成模型验证器,使大型语言模型能够在数学以外的广泛领域实现强大、泛化的推理能力。

https://tiger-ai-lab.github.io/General-Reasoner/

Michael BarryMichael Barry

如果您从图表 1 中移除“14b-zoo”变体(它没有任何作用),并添加“qwen-3 base”和“qwen-3 instruct”,那么图表会更清晰,也不太可能误导读者认为您的方法显著提升了性能,而实际上,感知到的显著提升是由于 qwen-3 是一个比 qwen-2.5 更好的模型。对于 GPQA,图表强调了 12.6 点的增长,因为您将“qwen 2.5 instruct”与您的“qwen-3 general”模型进行了比较。然而,实际的增长,从 qwen-3 instruct 算起,只有 1.3 点。

Wenhu ChenWenhu Chen
论文作者

所有数据都在表格中,所以我并不是说您故意误导任何人,但第一个图表中元素的选取既令人困惑,也(偶然地)具有误导性。

Michael BarryMichael Barry

好观点,我忽略了这一点,这比基础模型提高了10.2个百分点。更有理由在第一个图表中强调这一点,特别是对于那些不读完整论文的人来说,摘要和第一个图表至关重要。干得好

Xueguang MaXueguang Ma
论文作者
论文提交者

我们在更新后的 arxiv 中更新了预告图。感谢您的建议。

我们将 SimpleRL-14B-Zoo 模型保留在图表中,因为它是近期专注于数学的零强化学习工作中具有代表性的模型之一。