从 KMMLU-Redux 到 KMMLU-Pro:用于大语言模型评估的专业韩语基准套件

发表
GUIJIN SONGUIJIN SON 提交
作者: Seokhee Hong, Sunkyoung KimSunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee

摘要

大型语言模型(LLM)的发展需要强大的基准,这些基准不仅应涵盖学术领域,还应包含工业领域,以便有效评估其在真实世界场景中的适用性。在本文中,我们介绍了两个韩国专家级基准。KMMLU-Redux 是从现有的 KMMLU 重建而来,包含了来自韩国国家技术资格考试的试题,并移除了关键错误以提高可靠性。KMMLU-Pro 则基于韩国国家专业执照考试,以反映韩国的专业知识。我们的实验证明,这些基准全面地代表了韩国的工业知识。我们已将该数据集公开发布。
查看 arXiv 页面查看 PDF

评论