尼罗河聊天:针对阿拉伯语和拉丁语文字的埃及语言模型

发表
Guokan ShangGuokan Shang 提交
作者: Guokan ShangGuokan Shang, Hadi AbdineHadi Abdine, Ahmad ChammaAhmad Chamma, Amr MohamedAmr Mohamed, Mohamed AnwarMohamed Anwar, Abdelaziz BounharAbdelaziz Bounhar, Omar El HerraouiOmar El Herraoui, Preslav NakovPreslav Nakov, Michalis Vazirgiannis, Eric Xing

摘要

我们推出了Nile-Chat-4B、3x4B-A6B和12B,这是一系列专为埃及方言设计的大语言模型(LLM),独特之处在于能够理解和生成阿拉伯语和拉丁语脚本的文本。具体而言,通过Nile-Chat-3x4B-A6B,我们引入了一种新颖的语言适应方法,该方法利用Branch-Train-MiX策略,将针对特定脚本的专家模型合并到一个单一的MoE模型中。我们的Nile-Chat模型在我们新推出的埃及语评估基准上显著优于领先的多语言和阿拉伯语大语言模型(如LLaMa、Jais和ALLaM),这些基准涵盖了理解和生成任务。值得注意的是,我们的12B模型在拉丁语脚本基准上比Qwen2.5-14B-Instruct的性能提升了14.4%。我们所有的资源均已公开可用。我们相信这项工作为将大语言模型适应双脚本语言提供了一套全面的方法,解决了现代大语言模型开发中一个经常被忽视的方面。
查看 arXiv 页面查看 PDF

评论

Guokan ShangGuokan Shang
论文作者
论文提交者

Nile-Chat是一个针对埃及方言的大型语言模型(LLM)集合,独特设计用于理解和生成用阿拉伯语和拉丁语脚本书写的文本。

在这项工作中,我们还引入了一种新颖的语言适应方法,通过利用Branch-Train-MiX策略,将语言专业专家合并到一个单一的MoE模型中。