利用双语翻译数据对大型语言模型进行大规模多语言适配

发表
ShaoxiongShaoxiong 提交
作者: ShaoxiongShaoxiong Ji, Zihao Li, Jaakko PaavolaJaakko Paavola, Indraneil PaulIndraneil Paul, Hengyu LuoHengyu Luo, Jörg TiedemannJörg Tiedemann

摘要

本文研究了大规模多语言持续预训练实践中的一个关键设计决策——并行数据的纳入。具体而言,我们研究了双语翻译数据对 Llama3 系列模型进行大规模多语言适配(针对 500 种语言)的影响。为此,我们构建了 MaLA 双语翻译语料库,其中包含来自 2,500 多个语言对的数据。随后,我们开发了 EMMA-500 Llama 3 套件,该套件包含四个大规模多语言模型——这些模型从 Llama 3 系列基础模型持续预训练而来,广泛使用了高达 6710 亿词元的多样化数据混合——并探讨了有或没有双语翻译数据进行持续预训练的效果。对 7 项任务和 12 个基准进行的全面评估表明,双语数据倾向于增强语言迁移和性能,特别是对于低资源语言。我们将开源 MaLA 语料库、EMMA-500 Llama 3 套件工件、代码和模型生成。
查看 arXiv 页面查看 PDF

评论

ShaoxiongShaoxiong
论文作者
论文提交者

本文介绍了 MaLA 双语翻译语料库和 EMMA-500 Llama 3 模型套件 (EMMA-500 Gen2)。关于 Gen 1 请参阅 arXiv:2409.17892