⏶214
Mutarjim: 使用小型语言模型推进双向阿拉伯语-英语翻译
发表
由
Khalil Hennara 提交

作者:
Khalil Hennara,
Muhammad Hreden,
Mohamed Motaism Hamed,
Zeina Aldallal,
Sara Chrouf, Safwan AlModhayan



摘要
我们引入了 Mutarjim,一个紧凑而强大的阿拉伯语-英语双向翻译语言模型。尽管大型语言模型(LLMs)在自然语言处理任务(包括机器翻译)中展现了令人印象深刻的进展,但小型模型仍具潜力。利用这一洞察,我们基于专为阿拉伯语和英语设计的语言模型 Kuwain-1.5B 开发了 Mutarjim。尽管规模不大,但 Mutarjim 通过优化的两阶段训练方法和精心策划的高质量训练语料库,在多个现有基准上胜过许多更大的模型。实验结果表明,Mutarjim 的性能可与大达 20 倍的模型媲美,同时显著降低了计算成本和训练需求。我们还引入了 Tarjama-25,这是一个旨在克服现有阿拉伯语-英语基准数据集局限性的新基准,例如领域狭窄、句子长度短和英语源语偏见。Tarjama-25 包含 5,000 对经过专家评审的句对,涵盖广泛的领域,提供了一个更全面和平衡的评估框架。值得注意的是,Mutarjim 在 Tarjama-25 的英译阿任务上取得了最先进的性能,甚至超越了像 GPT-4o mini 这样显著更大和专有的模型。我们公开发布 Tarjama-25,以支持未来的研究并推动阿拉伯语-英语翻译系统的评估。
评论

收听这篇论文的音频简报:https://open.spotify.com/episode/24ezyWlV5TMTLRAkCfDM3t?si=7071847289d84d02
我们推出 Mutarjim,一个紧凑而强大的阿拉伯语-英语双向翻译语言模型。虽然大型语言模型(LLMs)在自然语言处理任务(包括机器翻译)中取得了令人瞩目的进展,但更小的模型也展现出巨大潜力。基于这一洞察,我们基于专为阿拉伯语和英语设计的 Kuwain-1.5B 语言模型开发了 Mutarjim。尽管规模适中,Mutarjim 在多个既定基准测试中表现优于许多大型模型,这得益于优化的两阶段训练方法和精心策划的高质量训练语料库。实验结果表明,Mutarjim 能够与比自身大 20 倍的模型相媲美,同时显著降低了计算成本和训练需求。我们还推出了 Tarjama-25,这是一个旨在克服现有阿拉伯语-英语基准数据集(如领域狭窄、句子长度短和英语源偏见)局限性的新基准。Tarjama-25 包含 5,000 对经过专家审阅的句子对,涵盖广泛的领域,提供了更全面、更均衡的评估框架。值得注意的是,Mutarjim 在 Tarjama-25 的英译阿任务上取得了最先进的性能,甚至超越了像 GPT-4o mini 这样规模更大、专有的模型。我们公开 Tarjama-25,以支持未来的研究并推动阿拉伯语-英语翻译系统的评估。