快而简单:基于丰富数据和规则模型重新思考 G2P

发表
Mahta FetratMahta Fetrat 提交
作者: Mahta FetratMahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee

摘要

同形异音词消歧在字形到音素(G2P)转换中仍然是一个重大挑战,特别是对于低资源语言。这个挑战是双重的:(1) 构建平衡且全面的同形异音词数据集费时且成本高昂,(2) 特定的消歧策略引入了额外的延迟,使其不适用于屏幕阅读器和其他辅助功能工具等实时应用。在本文中,我们解决了这两个问题。首先,我们提出了一种半自动化的流程来构建以同形异音词为重点的数据集,介绍了通过此流程生成的 HomoRich 数据集,并通过将其应用于增强波斯语的最先进的基于深度学习的G2P系统来证明其有效性。其次,我们倡导一种范式转变——利用丰富的离线数据集来指导适用于对延迟敏感的辅助应用(如屏幕阅读器)的快速、基于规则的方法的开发。为此,我们改进了最著名的基于规则的G2P系统之一eSpeak,使其成为一个快速的同形异音词感知版本,HomoFast eSpeak。我们的结果表明,基于深度学习和eSpeak系统的同形异音词消歧准确率提高了约30%。
查看 arXiv 页面查看 PDF

评论

Mahta FetratMahta Fetrat
论文作者
论文提交者

同形异义词消歧仍然是字形到音素 (G2P) 转换中的一个重大挑战,特别是对于低资源语言。这个挑战是双重的:(1) 创建平衡全面的同形异义词数据集劳动密集且成本高昂,以及 (2) 特定的消歧策略会引入额外的延迟,使其不适用于实时应用,例如屏幕阅读器和其他辅助功能工具。在本文中,我们解决了这两个问题。首先,我们提出了一种半自动化流程来构建专注于同形异义词的数据集,引入了通过此流程生成的 HomoRich 数据集,并通过将其应用于增强波斯语最先进的基于深度学习的 G2P 系统来证明其有效性。其次,我们提倡一种范式转变——利用丰富的离线数据集来指导适用于对延迟敏感的辅助功能应用(如屏幕阅读器)的快速、基于规则的方法的开发。为此,我们将最著名的基于规则的 G2P 系统之一 eSpeak 改进为一个快速且对同形异义词敏感的版本,HomoFast eSpeak。我们的结果表明,基于深度学习和 eSpeak 系统的同形异义词消歧准确率提高了约 30%。