⏶18
大型语言模型基准测试调查
发表
由
taesiri 提交

作者:
Shiwen Ni,
Guhong Chen,
Shuaimin Li,
Xuanang Chen, Siyi Li,
Bingli Wang,
Qiyao Wang, Xingjian Wang, Yifan Zhang,
Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang

摘要
近年来,随着大型语言模型能力的深度和广度的快速发展,各种相应的评估基准也层出不穷。作为衡量模型性能的定量评估工具,基准不仅是衡量模型能力的核心手段,也是指导模型发展方向和促进技术创新的关键要素。我们首次系统地回顾了大型语言模型基准的现状和发展,将 283 个代表性基准分为三类:通用能力、领域特定和目标特定。通用能力基准涵盖了核心语言学、知识和推理等方面;领域特定基准侧重于自然科学、人文学科和社会科学以及工程技术等领域;目标特定基准则关注风险、可靠性、代理等。我们指出,当前的基准存在数据污染导致的得分虚高、文化和语言偏见导致评估不公以及缺乏对过程可信度和动态环境的评估等问题,并为未来基准创新提供了可参考的设计范式。
> 近年来,随着大型语言模型能力的深度和广度的飞速发展,各种相应的评估基准也日益增多。基准作为模型性能的量化评估工具,不仅是衡量模型能力的核心手段,也是指导模型发展方向、推动技术创新的关键要素。我们首次系统性地回顾了大型语言模型基准的现状和发展,将 283 个代表性基准分为三类:通用能力、领域特定和目标特定。通用能力基准涵盖了核心语言、知识和推理等方面;领域特定基准侧重于自然科学、人文学科和社会科学以及工程技术等领域;目标特定基准关注风险、可靠性、代理等。我们指出,当前基准存在数据污染导致的得分虚高、文化和语言偏见导致评估不公,以及缺乏对过程可信度和动态环境的评估等问题,并为未来的基准创新提供可参考的设计范式。