MorphoBench:一个难度自适应模型推理的基准测试

发表
bohan zengbohan zeng 提交
作者: Xukai Wang, Xuanbo LiuXuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, bohan zengBohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen LiXuchen Li, Ruitao Wu, Ruichuan An, Yang ShiYang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong

摘要

AI 生成总结
MorphoBench 是一个基准测试,通过多学科问题、自适应难度和模拟生成的问题来评估大型模型的推理能力。
随着强大的大规模推理模型的进步,有效评估这些模型的推理能力变得越来越重要。然而,现有用于评估大型模型推理能力的基准往往范围有限,并且缺乏灵活性来根据模型不断发展的推理能力调整其难度。为了解决这个问题,我们提出了 MorphoBench,一个包含跨学科问题的基准,用于评估大型模型的推理能力,并且可以根据先进模型的推理能力调整和更新问题难度。具体来说,我们通过从现有基准和奥林匹克竞赛等来源选择和收集复杂的推理问题来策划基准。此外,MorphoBench 利用模型推理过程中生成关键语句来适应性地修改问题的分析挑战。此外,它还包含使用模拟软件生成的问题,从而以最小的资源消耗动态调整基准难度。我们收集了 1,300 多个测试问题,并根据 o3 和 GPT-5 等模型的推理能力迭代调整了 MorphoBench 的难度。MorphoBench 提高了模型推理评估的全面性和有效性,为提高大型模型的推理能力和科学鲁棒性提供了可靠指导。代码已发布在 https://github.com/OpenDCAI/MorphoBench
查看 arXiv 页面查看 PDF

评论

bohan zengbohan zeng
论文作者
论文提交者

一个全新的多学科推理基准,可以根据模型的推理能力调整难度,使任务根据需要变得更难或更易。

bohan zengbohan zeng
论文作者
论文提交者

我们的基准可在 https://huggingface.co/datasets/OpenDCAI/MorphoBench 获取