⏶8
答案匹配优于多项选择,用于语言模型评估
发表
由
Shashwat Goel 提交

作者: Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
摘要
多项选择题基准长期以来一直是语言模型评估的主力,因为多项选择题的评分客观且易于自动化。然而,我们表明,来自流行的基准测试中的多项选择题通常可以在不看问题的情况下回答。 这些捷径源于判别式评估的基本限制,而对模型自由形式、生成式答案的评估则不存在此限制。 直到最近,似乎没有可行的、可扩展的替代多项选择的方法——但是,我们表明情况已经改变。 我们考虑通过我们称之为答案匹配的生成式评估:向候选模型提供问题而不提供选项,让它生成自由形式的回答,然后使用带有参考答案的现代语言模型来确定回答是否与参考答案匹配。 为了比较不同评估策略的有效性,我们标注了 MMLU-Pro 和 GPQA-Diamond 以获得人工评分数据,并衡量每种评估方法的吻合程度。 我们发现,使用最新模型的答案匹配——即使是小模型——也达到了接近完美的吻合程度,处于注释者之间的一致性范围内。 相比之下,多项选择评估和使用没有参考答案的 LLM 作为评判,都与人工评分的吻合度较差。 通过答案匹配改进评估不仅仅是一个概念问题:当使用答案匹配评估其自由形式的回答时,几个模型的排名发生了显着变化。 鉴于这些发现,我们讨论了如何将评估生态系统从多项选择转变为答案匹配。
新论文:《答案匹配在语言模型评估中优于多项选择》。
我们发现,即使不知道问题,也可以解决多项选择题。仅仅看选项就有助于猜测答案并获得高准确率。这影响了流行的基准测试,如 MMLU-Pro、SuperGPQA 等,甚至“多模态”基准测试,如 MMMU-Pro,也可以在不看图像的情况下解决。
这种仅靠选项的捷径很难修复。我们发现之前修复它们的尝试——GoldenSwag(针对 HellaSwag)和 TruthfulQA v2 最终使问题更加严重。多项选择题本质上是一项区分任务,只需要在几个给定的选项中选择正确的选项。相反,我们应该评估语言模型在生成能力方面的表现,而生成比区分更难。
但是,我们如何评估“可验证领域”(如代码和数学)之外的生成式回复呢?许多释义都是有效的答案……我们展示了一种可扩展的替代方案——答案匹配——效果出奇的好。它很简单——获取对现有基准测试问题的生成式回复(不显示选项),并使用 LLM 将回复与标准答案进行匹配。我们通过与 MATH 上的标准答案验证以及 MMLU-Pro 和 GPQA-Diamond 问题上的人工评分进行比较,来进行元评估。答案匹配结果给出了近乎完美的对齐,即使是小型(最近的)模型,如 Qwen3-4B。
相比之下,即使是像 o4-mini 这样的前沿推理模型,LLM 作为评判者的表现也差很多。这是因为在没有参考答案的情况下,该模型需要执行验证任务,这比答案匹配需要的任务——释义检测——更难,而现代语言模型已经掌握了释义检测这项技能。
我们在论文的最后提出了将基准测试生态系统从多项选择题转向答案匹配的实用考虑。
影响:我们表明,模型排名可能会发生变化,准确率会下降,这使得基准测试看起来不那么饱和。与其创建更难的多项选择题,不如我们将精力集中在创建具有唯一正确答案的问题上,以便进行答案匹配,就像 SimpleQA、GAIA 等一样。最后,令我们非常惊讶的是,运行答案匹配评估比多项选择题更便宜!
请参阅我们的论文了解更多信息,其中包含大量见解。