⏶5
Llama-GENBA-10B:一个用于德语、英语和巴伐利亚语的三语大语言模型
发表
由
Stefan Schweter 提交

作者: Michael Hoffmann, Jophin John,
Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang,
Dmitry Gaynullin, Nicolay J. Hammer

摘要
AI 生成总结
Llama-GENBA-10B 是一种三语基础模型,通过平衡英语、德语和巴伐利亚语的训练,解决了以英语为中心的偏见,实现了强大的跨语言性能,并为巴伐利亚语设定了新的基准。我们推出了Llama-GENBA-10B,一个三语基础模型,旨在解决大型语言模型中的英语中心偏差。Llama-GENBA-10B基于Llama 3.1-8B构建,规模达到10B参数,在164B个token上进行持续预训练(82B英语、82B德语和80M巴伐利亚语),在平衡资源的同时防止英语占主导地位。该模型以德语NLP社区为目标,同时推广巴伐利亚语作为一种低资源语言。开发过程解决了四个挑战:(1)在巴伐利亚语稀缺的情况下策展多语言语料库;(2)创建一种统一的英语、德语和巴伐利亚语分词器;(3)优化跨语言迁移的架构和语言比例超参数;以及(4)通过将德语基准翻译成巴伐利亚语,建立第一个标准化的三语评估套件。评估表明,Llama-GENBA-10B在巴伐利亚语上实现了强大的跨语言性能,其微调版本超越了Apertus-8B-2509和gemma-2-9b,成为该语言中同类模型中的最佳模型,同时在英语上优于EuroLLM,并在德语上与其结果相当。在Cerebras CS-2上进行的训练表明,通过记录的能源消耗实现了高效的大规模多语言预训练,为整合低资源语言的包容性基础模型提供了一个蓝图。
我们提出了 Llama-GENBA-10B,这是一个三语基础模型,解决了大型语言模型中以英语为中心的偏见问题。Llama-GENBA-10B 基于 Llama 3.1-8B 构建,并扩展到 10B 参数,在 164B 个 token(82B 英语,82B 德语,80M 巴伐利亚语)上进行了持续预训练,平衡了资源,同时防止了英语的支配地位。该模型针对德语 NLP 社区,并推广了巴伐利亚语作为一种低资源语言。