提升阿拉伯语反向词典系统:一种基于 Transformer 的方法及其数据集构建指南

发表
Omartificial Intelligence SpaceOmartificial Intelligence Space 提交
作者: Serry SibaeeSerry Sibaee, Samar Ahmed, Abdullah AlharbiAbdullah Al Harbi, Omartificial Intelligence SpaceOmer Nacar, Adel AmmarAdel Ammar, Yasser Habashi, Wadii BoulilaWadii Boulila

摘要

本研究通过开发一种有效的阿拉伯语逆向词典(RD)系统,解决了阿拉伯语自然语言处理领域的关键空白,该系统使用户能够根据单词的描述或意义查找单词。我们提出了一种新颖的基于 Transformer 的方法,该方法采用具有几何递减层的半编码器神经网络架构,在阿拉伯语 RD 任务上取得了最先进的结果。我们的方法论包含一个全面的数据集构建过程,并建立了阿拉伯语词典定义的正式质量标准。对各种预训练模型进行的实验表明,阿拉伯语专用模型显著优于通用多语言嵌入,其中 ARBERTv2 取得了最佳排名得分(0.0644)。此外,我们提供了逆向词典任务的形式化抽象,增强了理论理解,并开发了一个具有可配置训练管道的模块化、可扩展的 Python 库(RDTL)。我们对数据集质量的分析揭示了改进阿拉伯语定义构建的重要见解,从而形成了构建高质量逆向词典资源的八项具体标准。这项工作对阿拉伯语计算语言学做出了重要贡献,并为阿拉伯语的语言学习、学术写作和专业交流提供了有价值的工具。
查看 arXiv 页面查看 PDF

评论

Omartificial Intelligence SpaceOmartificial Intelligence Space
论文作者
论文提交者

本文介绍了一种针对阿拉伯语逆向词典系统的新颖基于 Transformer 的方法,该方法利用具有几何递减隐藏层的半编码器神经网络来达到最先进的性能。它还为阿拉伯语词典定义建立了正式的质量标准,确保了数据集构建中的一致性和可靠性。此外,作者提供了逆向词典任务的理论抽象,促进了基于嵌入的词语检索的可复现性和更深入的理解。为了支持正在进行的研究,他们发布了 RDTL,这是一个带有模块化训练管道的开源 Python 库,专为逆向词典应用量身定制。