⏶4
关于基于基准测试的LLM评估的鲁棒性和可靠性
发表
由
Kevin Roitero 提交

作者: Riccardo Lunardi, Vincenzo Della Mea, Stefano Mizzaro, Kevin Roitero
摘要
AI 生成总结
大型语言模型在转述的基准问题上表现出效果下降,这表明其在处理语言变异性方面存在局限性,并提示需要更强大的评估方法。大型语言模型 (LLM) 的有效性通常通过 MMLU、ARC-C 或 HellaSwag 等基准测试来评估,在这些测试中,问题以其原始措辞呈现,即固定、标准化的格式。然而,实际应用涉及语言的多样性,要求模型在相同问题或查询的各种改写中保持其有效性。在本研究中,我们系统地评估了 LLM 对改写后的基准测试问题的鲁棒性,并研究了基于基准测试的评估是否能可靠衡量模型的性能。我们系统地生成了六个不同常见基准测试中所有问题的各种改写,并测量了 34 种不同规模和有效性的最先进 LLM 在这些改写问题上的有效性变化。我们的研究结果表明,虽然 LLM 的排名在改写后的输入中相对稳定,但绝对有效性得分发生了变化,并且显著下降。这表明 LLM 在语言多样性方面存在困难,引起了对其泛化能力和评估方法的担忧。此外,观察到的性能下降挑战了基于基准测试的评估的可靠性,表明高基准分数可能无法完全捕捉模型对实际输入变化的鲁棒性。我们讨论了这些发现对 LLM 评估方法的影响,强调需要更注重鲁棒性的基准测试,以更好地反映实际部署场景。
本文认为,基于基准的语言模型评估可能高估其在现实世界中的有效性,因为当模型面对基准问题改写的版本时,其性能会显著下降。