⏶2

利用双语翻译数据对大型语言模型进行大规模多语言适配

05月31日发表

06月03日由 Shaoxiong 提交

作者: Shaoxiong Ji, Zihao Li, Jaakko Paavola, Indraneil Paul, Hengyu Luo, Jörg Tiedemann

摘要

本文研究了大规模多语言持续预训练实践中的一个关键设计决策——并行数据的纳入。具体而言，我们研究了双语翻译数据对 Llama3 系列模型进行大规模多语言适配（针对 500 种语言）的影响。为此，我们构建了 MaLA 双语翻译语料库，其中包含来自 2,500 多个语言对的数据。随后，我们开发了 EMMA-500 Llama 3 套件，该套件包含四个大规模多语言模型——这些模型从 Llama 3 系列基础模型持续预训练而来，广泛使用了高达 6710 亿词元的多样化数据混合——并探讨了有或没有双语翻译数据进行持续预训练的效果。对 7 项任务和 12 个基准进行的全面评估表明，双语数据倾向于增强语言迁移和性能，特别是对于低资源语言。我们将开源 MaLA 语料库、EMMA-500 Llama 3 套件工件、代码和模型生成。

查看 arXiv 页面查看 PDF

Shaoxiong

论文作者

论文提交者

本文介绍了 MaLA 双语翻译语料库和 EMMA-500 Llama 3 模型套件 (EMMA-500 Gen2)。关于 Gen 1 请参阅 arXiv:2409.17892

利用双语翻译数据对大型语言模型进行大规模多语言适配

摘要

评论