mSCoRe:一个基于技能的多语言可扩展常识推理基准

发表
Franck DernoncourtFranck Dernoncourt 提交
作者: Nghia Trung NgoNghia Trung Ngo, Franck DernoncourtFranck Dernoncourt, Thien Huu NguyenThien Huu Nguyen

摘要

近期,在推理增强的大型语言模型(LLMs)方面取得了显著进展,它们在复杂的推理任务中展现出了卓越的能力。然而,其利用不同人类推理技能的机制仍然研究不足,特别是涉及不同语言和文化背景下日常知识的多语言常识推理。为了弥补这一不足,我们提出了一个用于基于技能的常识推理的多语言可扩展基准(mSCoRe)。 我们的基准包含三个关键组成部分,旨在系统地评估LLM的推理能力,包括:(1)一种新颖的推理技能分类法,能够对模型的推理过程进行细粒度分析;(2)一个专门为常识推理评估量身定制的强大数据合成流程;以及(3)一个复杂性扩展框架,允许任务难度随着LLM能力的未来提升而动态扩展。在八种不同大小和训练方法的先进LLMs上进行的广泛实验表明,mSCoRe对当前模型仍然极具挑战性,尤其是在更高的复杂性级别上。我们的结果揭示了这类推理增强模型在面对细致的多语言通用和文化常识时的局限性。我们进一步提供了对模型推理过程的详细分析,为提高多语言常识推理能力指明了未来方向。
查看 arXiv 页面查看 PDF

评论

Franck DernoncourtFranck Dernoncourt
论文作者
论文提交者
此评论已隐藏。