SHAMI-MT:一个叙利亚阿拉伯方言与现代标准阿拉伯语之间的双向机器翻译系统

发表
Omartificial Intelligence SpaceOmartificial Intelligence Space 提交
作者: Serry Sibaee, Omartificial Intelligence SpaceOmer Nacar, Yasser Al-Habashi, Adel Ammar, Wadii Boulila

摘要

阿拉伯世界丰富的语言环境呈现出一个显著的特点,即作为正式交流语言的现代标准阿拉伯语(MSA)与日常生活中使用的多样化地方方言之间存在巨大差异。这种双言现象给自然语言处理,特别是机器翻译,带来了巨大挑战。本文介绍了SHAMI-MT,一个专为弥合MSA与叙利亚方言之间交流鸿沟而设计的双向机器翻译系统。我们提出了两个专门的模型,一个用于MSA到沙米方言(Shami)的翻译,另一个用于沙米方言到MSA的翻译,两者均基于最先进的AraT5v2-base-1024架构构建。这些模型在全面的Nabra数据集上进行了微调,并在MADAR语料库的未见数据集上进行了严格评估。在由OPENAI的GPT-4.1模型进行评判时,我们的MSA到沙米方言模型取得了5.0分中4.01分的杰出平均质量分,证明其能够生成既准确又具有地道方言特色的译文。这项工作为之前服务不足的语言对提供了一个至关重要的高保真工具,推动了阿拉伯方言翻译领域的发展,并在内容本地化、文化遗产保护和跨文化交流方面具有重要应用价值。
查看 arXiv 页面查看 PDF

评论

Omartificial Intelligence SpaceOmartificial Intelligence Space
论文作者
论文提交者

阿拉伯世界丰富的语言景观以现代标准阿拉伯语(MSA)与日常生活中使用的多样化地方方言之间的显著差异为特征,前者是正式交流的语言。这种双言现象(diglossia)为自然语言处理,特别是机器翻译,带来了巨大的挑战。本文介绍了 SHAMI-MT,一个双向机器翻译系统,专门为弥合 MSA 与叙利亚方言之间的沟通鸿沟而设计。我们提出了两个专门的模型,一个用于 MSA 到叙利亚方言(Shami)的翻译,另一个用于叙利亚方言到 MSA 的翻译,两者都基于最先进的 AraT5v2-base-1024 架构构建。这些模型在全面的 Nabra 数据集上进行了微调,并在来自 MADAR 语料库的未见数据集上进行了严格评估。我们的 MSA 到叙利亚方言模型在由 OPENAI 的 GPT-4.1 模型评判时,获得了 5.0 分中 4.01 分的优异平均质量得分,证明其能够生成不仅准确而且符合方言地道性的译文。这项工作为一个先前服务不足的语言对提供了关键的高保真工具,推动了阿拉伯方言翻译领域的发展,并在内容本地化、文化遗产和跨文化交流方面具有重要的应用价值。