⏶6
UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
发表
由
Omartificial Intelligence Space 提交

作者:
Omer Nacar

摘要
主要在英语语料库上训练的大型语言模型 (LLM) 常常难以捕捉阿拉伯语的语言和文化细微差别。为了弥合这一差距,沙特数据与人工智能管理局 (SDAIA) 推出了 ALLaM 系列专注于阿拉伯语的模型。其中能力最强的、可供公众使用的 ALLaM-34B 模型随后被 HUMAIN 采用,HUMAIN 基于该模型开发并部署了 HUMAIN Chat,这是一项闭源的对话式网络服务。本文对 ALLaM-34B 进行了扩展和改进的用户界面 (UI) 级别评估。我们使用涵盖现代标准阿拉伯语、五种地区方言、语码转换、事实知识、算术和时间推理、创意生成以及对抗性安全性的提示包,收集了 115 个输出(23 个提示,每个运行 5 次),并使用三个前沿 LLM 评判器(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)对每个输出进行了评分。我们计算了 95% 置信区间的类别级均值,分析了评分分布,并可视化了按方言划分的指标热力图。更新的分析显示,在生成和语码转换任务上持续表现出色(平均均为 4.92/5),同时在处理现代标准阿拉伯语方面也取得了优异成绩(4.74/5),推理能力扎实(4.64/5),方言准确性也有所提高(4.21/5)。与安全相关的提示显示出稳定可靠的表现(4.54/5)。总而言之,这些结果表明 ALLaM-34B 是一个强大且具有文化基础的阿拉伯语 LLM,展现了技术实力和实际部署的准备就绪。
主要在英语语料库上训练的大型语言模型(LLM)往往难以捕捉阿拉伯语的语言和文化细微之处。为了弥补这一差距,沙特数据和人工智能管理局(SDAIA)推出了专注于阿拉伯语的ALLaM系列模型。其中最强大的、对公众可用的ALLaM−34B,随后被HUMAIN采用,HUMAIN基于该模型开发并部署了HUMAIN Chat,这是一个闭源的对话式网络服务。本文对ALLaM−34B进行了扩展和改进的UI级别评估。我们使用一个涵盖现代标准阿拉伯语、五种地区方言、代码切换、事实知识、算术和时间推理、创意生成以及对抗性安全性的提示包,收集了115个输出(23个提示 × 5次运行),并使用三个前沿LLM评判器(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)对每个输出进行了评分。我们计算了95%置信区间的类别平均值,分析了得分分布,并可视化了按方言划分的指标热力图。更新的分析显示,在生成和代码切换任务上表现持续优异(平均均为4.92/5),在处理现代标准阿拉伯语方面取得了优异成绩(4.74/5),推理能力扎实(4.64/5),方言保真度有所提高(4.21/5)。安全相关提示表现稳定可靠(4.54/5)。总而言之,这些结果将ALLaM−34B定位为一个强大且根植于文化的阿拉伯语LLM,展示了技术实力和在现实世界部署的实际准备情况。