⏶1
FuxiMT:用于以中文为中心的多语言机器翻译的大型语言模型稀疏化
发表
由
Bo Li 提交

作者: Shaolin Zhu, Tianyu Dong,
Bo Li, Deyi Xiong

摘要
在本文中,我们介绍了FuxiMT,这是一种新型的以中文为中心的跨语言机器翻译模型,由稀疏化的大型语言模型(LLM)驱动。我们采用两阶段策略来训练FuxiMT。我们首先在一个海量中文语料库上预训练模型,然后在涵盖65种语言的大型并行数据集上进行多语言微调。FuxiMT集成了混合专家模型(MoEs),并采用了课程学习策略,以在各种资源水平下实现稳健的性能。实验结果表明,FuxiMT显著优于强大的基线,包括最先进的LLMs和机器翻译模型,特别是在低资源场景下。此外,FuxiMT展现出显著的零样本翻译能力,对于未见的语言对,表明其弥合沟通鸿沟的潜力,在并行数据稀缺或不可用的地方。
在本文中,我们介绍了 FuxiMT,这是一种由稀疏化大型语言模型(LLM)驱动的新型以中文为中心的多语言机器翻译模型。我们采用两阶段策略来训练 FuxiMT。我们首先在一个大规模中文语料库上对模型进行预训练,然后在包含 65 种语言的大型平行数据集上进行多语言微调。FuxiMT 融合了专家混合模型(MoEs)并采用了课程学习策略,以在各种资源级别下实现稳健的性能。实验结果表明,FuxiMT 显著优于强大的基线模型,包括最先进的 LLM 和机器翻译模型,特别是在低资源场景下。此外,FuxiMT 对未见过的语言对表现出卓越的零样本翻译能力,表明其在平行数据稀缺或不可用的情况下弥合沟通差距的潜力。