评估是你所需要的一切:通过评估设计策略性地夸大 LLM 推理能力

发表
sunlinsunlin 提交
作者: sunlinLin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, xiaoqijianXiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang

摘要

以 Deepseek-R1-Distill 系列为代表的推理模型,因其在数学、科学、编程等领域的强大表现而广受开源社区的采用。然而,我们的研究揭示,其基准评估结果受多种因素影响,存在显著波动。评估条件上的微小差异可能导致结果的巨大变化。在基于 Deepseek-R1-Distill 系列微调的其他开源推理模型中,以及在 QwQ-32B 模型中,也观察到类似现象,这使得它们声称的性能提升难以可靠复现。因此,我们倡导建立更严格的模型性能评估范式,并对 Deepseek-R1-Distill 系列模型进行了实证评估。
查看 arXiv 页面查看 PDF

评论

sunlinsunlin
论文作者
论文提交者

以 Deepseek-R1-Distill 系列为代表的推理模型,因其在数学、科学、编程等领域的强大性能,已被开源社区广泛采用。研究表明,其基准评估结果受到多种因素引起的显著波动影响。评估条件中的微小差异可能导致结果的巨大变化。在其他基于 Deepseek-R1-Distill 系列微调的开源推理模型以及 QwQ-32B 模型中也观察到类似现象,这使得其声称的性能提升难以可靠复现。

Samuel PrimeSamuel Prime

主要收获是什么?

sunlinsunlin
论文作者
论文提交者

本研究揭示了评估设计中的微小变化——例如数据集版本、随机种子初始化、指令放置、选项排序以及张量并行——如何导致针对像 Deepseek-R1-Distill 系列这样注重推理的 LLM 的基准分数出现显著波动。

主要发现:

  • 评估条件至关重要:微小变化可能导致性能波动几个百分点,使得模型比较不可靠。

  • 随机种子初始化与 N 采样:结果对随机种子高度敏感。使用更多推理样本(更大的 N 值)可提高稳定性。

  • 数据集版本:图像处理或格式(例如 AIME 数据集)的差异会影响结果高达 3.9 个百分点。

  • 选项与答案偏差:在 GPQA Diamond 等多项选择题中,答案位置和选项顺序可能导致准确率降低超过 5 个百分点。

  • 指令放置:影响较小,但仍根据训练对齐方式影响可复现性。

已识别的问题:

许多开源模型由于有利的评估设置而非实际改进,夸大了性能提升。

缺乏透明度和标准化导致结果无法复现。

建议:

  • 使用固定随机种子、清晰的文档和置信区间。

  • 报告具有统计稳定性的平均性能,而不仅仅是峰值分数。

  • 采用标准化的评估框架并披露所有设置。