大型语言模型中复杂推理的生成式评估

04月03日发表
04月09日由 Andy LinAndy Lin 提交
作者: Andy LinHaowei Lin, Xiangyu Wang, Ruilin YanRuilin Yan, Baizhou HuangBaizhou Huang, Haotian Ye, Jianhua Zhu, Zihao WangZihao Wang, James Zou, Jianzhu Ma, Yitao LiangYitao Liang

摘要

随着强大的大型语言模型 (LLM) 展示出超人的推理能力,一个关键问题出现了:LLM 真的是在推理,还是仅仅从其庞大的网络抓取训练数据集中回忆答案?一旦公开的基准被纳入后续的 LLM 训练集,就不可避免地会受到污染,从而削弱其作为忠实评估的可靠性。为了解决这个问题,我们推出了 KUMO,这是一个生成式评估框架,专门用于评估 LLM 中的推理能力。KUMO 将 LLM 与符号引擎协同结合,以动态生成多样化的、多轮的推理任务,这些任务是部分可观察的,并且难度可调。通过自动化管道,KUMO 在开放领域中不断生成新颖的任务,迫使模型展示真正的泛化能力,而不是记忆。我们评估了 23 个最先进的 LLM 在 KUMO 创建的 100 个领域中的 5,000 个任务上的表现,并将其推理能力与大学生进行了基准比较。我们的研究结果表明,许多 LLM 在简单的推理任务上都优于大学水平的表现,而推理规模化的 LLM 在复杂的推理挑战中达到了大学水平的表现。此外,LLM 在 KUMO 任务上的表现与新发布的真实世界推理基准的结果密切相关,这突显了 KUMO 作为评估真正 LLM 推理能力的强大而持久的评估工具的价值。
查看 arXiv 页面查看 PDF

评论

Andy LinAndy Lin
论文作者
论文提交者

Github: https://github.com/linhaowei1/kumo

Andy LinAndy Lin
论文作者
论文提交者

很高兴展示 KUMO,一个用于 LLM 的生成式评估基准。与静态基准不同,KUMO 动态生成多样化的、多轮次的推理任务,并具有可控的难度——避免数据泄露并确保可信赖的评估。

📄 论文:https://arxiv.org/pdf/2504.02810

为什么选择 KUMO?

✅ 与 SOTA 推理基准的相关性高达 95%+——合成但真实!

✅ 避免测试集污染(没有预训练数据泄露的风险)。

✅ 可控的难度和领域多样性,用于细粒度的评估。

主要发现:

1️⃣ 简单 vs. 复杂推理:LLM 在简单的任务上优于本科生,但只有深度思考模型才能在困难的问题上与人类匹敌。

2️⃣ 通用难度指标:KUMO 可以标准化跨基准的难度(LiveBench-Reason ≈ KUMO-Hard)。

3️⃣ 领域很重要!模型性能在不同领域(医疗、游戏等)差异很大——知识结构是关键。

4️⃣ 泛化挑战:当 KUMO 的任务演变时,在专家轨迹上进行微调会失败,这需要强大的 OOD/领域/难度泛化能力。

🌐 超越 KUMO:生成式评估是未来!我们早期关于 agent 评估的工作 (https://arxiv.org/pdf/2310.08367) 也表明动态基准如何将评估转变为科学。

💡 加入我们!KUMO 是开源的,带有 RL 友好的奖励信号。

Michael BarryMichael Barry

很棒的基准!

Andy LinAndy Lin
论文作者
论文提交者

请访问 https://huggingface.co/datasets/pkuHaowei/kumo-hard 查看我们的数据集!