⏶4
从指导方针到实践:阿拉伯语语言模型评估的新范式
发表
由
Omartificial Intelligence Space 提交

作者:
Serry Sibaee,
Omer Nacar,
Adel Ammar, Yasser Al-Habashi, Abdulrahman Al-Batati,
Wadii Boulila

摘要
本文通过建立全面的理论指导方针和引入一个新颖的评估框架,弥补了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,指出了在语言准确性、文化契合度和方法学严谨性方面存在的重大问题。为了解决LLM中的这些局限性,我们提出了阿拉伯语深度迷你数据集(ADMD),这是一个精心策划的集合,包含490个挑战性问题,涵盖十个主要领域(42个子领域,见图1)。使用ADMD,我们评估了五个领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B和Qwen-Max。我们的结果揭示了模型在不同领域性能上的显著差异,尤其是在需要深厚文化理解和专业知识的领域面临挑战。Claude 3.5 Sonnet在阿拉伯语数学理论、阿拉伯语语言和伊斯兰领域显示出相对优势,整体准确率最高,达到30%。这项工作为改进阿拉伯语语言模型评估提供了理论基础和实践见解,强调了文化能力与技术能力同等重要的作用。
评论

论文作者
论文提交者
本文通过建立全面的理论指导并引入新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,发现了在语言准确性、文化对齐和方法严谨性方面存在的重大问题。为解决 LLM 中的这些限制,我们提出了阿拉伯语深度迷你数据集(ADMD),这是一个精心策划的集合,包含 490 个具有挑战性的问题,涵盖十大主要领域(42 个子领域,参见图 1)。使用 ADMD,我们评估了五个领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B 和 Qwen-Max。我们的结果显示,模型在不同领域表现出显著差异,尤其是在需要深厚文化理解和专业知识的领域面临特殊挑战。Claude 3.5 Sonnet 总体准确率最高,达到 30%,在阿拉伯语数学理论、阿拉伯语语言和伊斯兰教领域表现出相对优势。这项工作为改进阿拉伯语语言模型评估提供了理论基础和实践见解,强调了文化能力与技术能力同等重要的意义。
本文通过建立全面的理论指导并引入新颖的评估框架,解决了阿拉伯语语言模型评估中的关键空白。我们首先分析了现有的阿拉伯语评估数据集,发现了在语言准确性、文化对齐和方法严谨性方面存在的重大问题。为解决 LLM 中的这些限制,我们提出了阿拉伯语深度迷你数据集(ADMD),这是一个精心策划的集合,包含 490 个具有挑战性的问题,涵盖十大主要领域(42 个子领域,参见图 1)。使用 ADMD,我们评估了五个领先的语言模型:GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B 和 Qwen-Max。我们的结果显示,模型在不同领域表现出显著差异,尤其是在需要深厚文化理解和专业知识的领域面临特殊挑战。Claude 3.5 Sonnet 总体准确率最高,达到 30%,在阿拉伯语数学理论、阿拉伯语语言和伊斯兰教领域表现出相对优势。这项工作为改进阿拉伯语语言模型评估提供了理论基础和实践见解,强调了文化能力与技术能力同等重要的意义。