⏶23
优化多语种文本转语音(带口音与情感)
发表
由
Pranav Pawar 提交

作者:
Pranav Pawar,
Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey

摘要
最先进的文本到语音(TTS)系统在单语环境中实现了高度的自然度,但合成具有正确多语言口音(特别是对于印度语言)和语境相关情感的语音仍然存在困难,这是由于当前框架中存在文化细微差别差异。本文介绍了一种新的TTS架构,该架构集成了口音,同时保留了音译并采用了多尺度情感建模,尤其针对印地语和印度英语口音进行了调整。我们的方法扩展了Parler-TTS模型,通过集成一个语言特定的音素对齐混合编码器-解码器架构,以及在母语者语料库上训练的文化敏感情感嵌入层,并结合了带有残差向量量化的动态口音代码切换。定量测试表明,口音准确性提高了23.7%(词错误率从15.4%降至11.8%),母语听众的情感识别准确率达到85.3%,超越了METTS和VECL-TTS基线。该系统的创新之处在于它能够实时进行代码混合,生成诸如"Namaste, let's talk about <Hindi phrase>"之类的语句,实现不间断的口音转换,同时保持情感一致性。对200名用户的主观评估显示,文化正确性方面的平均主观意见得分(MOS)为4.2/5,远优于现有多种语言系统(p<0.01)。这项研究通过展示可扩展的口音-情感解耦,使得跨语言合成更加可行,在南亚教育科技和无障碍软件领域具有直接应用价值。
大家好!
如果您对这篇论文有任何疑问,请随时提出。
或者如果您需要任何相关帮助或信息。