⏶16
从 KMMLU-Redux 到 KMMLU-Pro:用于大语言模型评估的专业韩语基准套件
发表
由
GUIJIN SON 提交

作者: Seokhee Hong,
Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee
摘要
大型语言模型(LLM)的发展需要强大的基准,这些基准不仅应涵盖学术领域,还应包含工业领域,以便有效评估其在真实世界场景中的适用性。在本文中,我们介绍了两个韩国专家级基准。KMMLU-Redux 是从现有的 KMMLU 重建而来,包含了来自韩国国家技术资格考试的试题,并移除了关键错误以提高可靠性。KMMLU-Pro 则基于韩国国家专业执照考试,以反映韩国的专业知识。我们的实验证明,这些基准全面地代表了韩国的工业知识。我们已将该数据集公开发布。
KMMLU 的即插即用替代品:https://arxiv.org/abs/2402.11548。
https://huggingface.co/datasets/LGAI-EXAONE/KMMLU-Pro
https://huggingface.co/datasets/LGAI-EXAONE/KMMLU-Redux