⏶16

从 KMMLU-Redux 到 KMMLU-Pro：用于大语言模型评估的专业韩语基准套件

07月11日发表

07月15日由 GUIJIN SON 提交

作者: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee

摘要

大型语言模型（LLM）的发展需要强大的基准，这些基准不仅应涵盖学术领域，还应包含工业领域，以便有效评估其在真实世界场景中的适用性。在本文中，我们介绍了两个韩国专家级基准。KMMLU-Redux 是从现有的 KMMLU 重建而来，包含了来自韩国国家技术资格考试的试题，并移除了关键错误以提高可靠性。KMMLU-Pro 则基于韩国国家专业执照考试，以反映韩国的专业知识。我们的实验证明，这些基准全面地代表了韩国的工业知识。我们已将该数据集公开发布。

查看 arXiv 页面查看 PDF

GUIJIN SON

论文提交者

KMMLU 的即插即用替代品：https://arxiv.org/abs/2402.11548。

https://huggingface.co/datasets/LGAI-EXAONE/KMMLU-Pro

https://huggingface.co/datasets/LGAI-EXAONE/KMMLU-Redux

从 KMMLU-Redux 到 KMMLU-Pro：用于大语言模型评估的专业韩语基准套件

摘要

评论