⏶20
尼罗河聊天:针对阿拉伯语和拉丁语文字的埃及语言模型
发表
由
Guokan Shang 提交

作者:
Guokan Shang,
Hadi Abdine,
Ahmad Chamma,
Amr Mohamed,
Mohamed Anwar,
Abdelaziz Bounhar,
Omar El Herraoui,
Preslav Nakov, Michalis Vazirgiannis, Eric Xing






摘要
我们推出了Nile-Chat-4B、3x4B-A6B和12B,这是一系列专为埃及方言设计的大语言模型(LLM),独特之处在于能够理解和生成阿拉伯语和拉丁语脚本的文本。具体而言,通过Nile-Chat-3x4B-A6B,我们引入了一种新颖的语言适应方法,该方法利用Branch-Train-MiX策略,将针对特定脚本的专家模型合并到一个单一的MoE模型中。我们的Nile-Chat模型在我们新推出的埃及语评估基准上显著优于领先的多语言和阿拉伯语大语言模型(如LLaMa、Jais和ALLaM),这些基准涵盖了理解和生成任务。值得注意的是,我们的12B模型在拉丁语脚本基准上比Qwen2.5-14B-Instruct的性能提升了14.4%。我们所有的资源均已公开可用。我们相信这项工作为将大语言模型适应双脚本语言提供了一套全面的方法,解决了现代大语言模型开发中一个经常被忽视的方面。
Nile-Chat是一个针对埃及方言的大型语言模型(LLM)集合,独特设计用于理解和生成用阿拉伯语和拉丁语脚本书写的文本。
在这项工作中,我们还引入了一种新颖的语言适应方法,通过利用Branch-Train-MiX策略,将语言专业专家合并到一个单一的MoE模型中。