⏶2
利用双语翻译数据对大型语言模型进行大规模多语言适配
发表
由
Shaoxiong 提交

作者:
Shaoxiong Ji, Zihao Li,
Jaakko Paavola,
Indraneil Paul,
Hengyu Luo,
Jörg Tiedemann


摘要
本文研究了大规模多语言持续预训练实践中的一个关键设计决策——并行数据的纳入。具体而言,我们研究了双语翻译数据对 Llama3 系列模型进行大规模多语言适配(针对 500 种语言)的影响。为此,我们构建了 MaLA 双语翻译语料库,其中包含来自 2,500 多个语言对的数据。随后,我们开发了 EMMA-500 Llama 3 套件,该套件包含四个大规模多语言模型——这些模型从 Llama 3 系列基础模型持续预训练而来,广泛使用了高达 6710 亿词元的多样化数据混合——并探讨了有或没有双语翻译数据进行持续预训练的效果。对 7 项任务和 12 个基准进行的全面评估表明,双语数据倾向于增强语言迁移和性能,特别是对于低资源语言。我们将开源 MaLA 语料库、EMMA-500 Llama 3 套件工件、代码和模型生成。
本文介绍了 MaLA 双语翻译语料库和 EMMA-500 Llama 3 模型套件 (EMMA-500 Gen2)。关于 Gen 1 请参阅 arXiv:2409.17892