⏶1
NileChat: 迈向面向本地社区的具备语言多样性和文化意识的大型语言模型
发表
由
Abdellah EL MEKKI 提交
作者: Abdellah El Mekki, Houdaifa Atou,
Omer Nacar, Shady Shehata, Muhammad Abdul-Mageed

摘要
提升大型语言模型(LLM)对低资源语言的处理能力是关键的研究领域。当前的研究方向主要依赖于通过翻译英文语料库生成的合成数据,这些数据虽然展示了良好的语言理解和翻译能力,但常常导致模型与源语言文化对齐。这些模型常常未能体现当地社区的文化遗产和价值观。本文提出了一种方法,用于创建针对特定社区量身定制的合成和检索式预训练数据,同时考虑其 (i) 语言,(ii) 文化遗产,以及 (iii) 价值观。我们使用埃及和摩洛哥方言作为试验台来展示我们的方法,选择它们是因为它们具有丰富的语言和文化内涵,以及当前在LLMs中代表性不足。作为概念验证,我们开发了 NileChat,一个拥有 30亿参数的 LLM,适用于埃及和摩洛哥社区,并融合了他们的语言、文化遗产和价值观。我们在各种理解、翻译以及文化和价值观对齐基准测试上的结果显示,NileChat 优于现有类似规模的支持阿拉伯语的 LLMs,并与更大的模型表现相当。我们向社区分享我们的方法、数据和模型,以促进在 LLM 开发中纳入和覆盖更多样化的社区。

提升大语言模型 (LLMs) 的语言能力以包含低资源语言是一个重要的研究领域。当前的研究方向主要依赖于通过翻译英语语料库生成的合成数据,尽管这展示了良好的语言理解和翻译能力,但常常导致模型与源语言文化对齐。这些模型常常无法代表当地社区的文化遗产和价值观。本工作提出了一种方法,用于创建根据特定社区量身定制的合成和检索式预训练数据,同时考虑其 (一) 语言、(二) 文化遗产和 (三) 文化价值观。我们使用埃及和摩洛哥方言作为试验台来展示我们的方法。作为概念验证,我们开发了 NileChat,这是一个 30亿参数的大语言模型,针对埃及和摩洛哥社区进行了调整,融合了他们的语言、文化遗产和价值观。我们的结果表明,NileChat 的表现优于同等规模的现有阿拉伯语感知型大语言模型,并与更大的模型性能相当。我们分享了我们的方法、数据和模型,以促进在大语言模型的开发中包含更多元化的社区。