优化多语种文本转语音(带口音与情感)

发表
Pranav PawarPranav Pawar 提交
作者: Pranav PawarPranav Pawar, Akshansh DwivediAkshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey

摘要

最先进的文本到语音(TTS)系统在单语环境中实现了高度的自然度,但合成具有正确多语言口音(特别是对于印度语言)和语境相关情感的语音仍然存在困难,这是由于当前框架中存在文化细微差别差异。本文介绍了一种新的TTS架构,该架构集成了口音,同时保留了音译并采用了多尺度情感建模,尤其针对印地语和印度英语口音进行了调整。我们的方法扩展了Parler-TTS模型,通过集成一个语言特定的音素对齐混合编码器-解码器架构,以及在母语者语料库上训练的文化敏感情感嵌入层,并结合了带有残差向量量化的动态口音代码切换。定量测试表明,口音准确性提高了23.7%(词错误率从15.4%降至11.8%),母语听众的情感识别准确率达到85.3%,超越了METTS和VECL-TTS基线。该系统的创新之处在于它能够实时进行代码混合,生成诸如"Namaste, let's talk about <Hindi phrase>"之类的语句,实现不间断的口音转换,同时保持情感一致性。对200名用户的主观评估显示,文化正确性方面的平均主观意见得分(MOS)为4.2/5,远优于现有多种语言系统(p<0.01)。这项研究通过展示可扩展的口音-情感解耦,使得跨语言合成更加可行,在南亚教育科技和无障碍软件领域具有直接应用价值。
查看 arXiv 页面查看 PDF

评论

Pranav PawarPranav Pawar
论文作者
论文提交者

大家好!

如果您对这篇论文有任何疑问,请随时提出。

或者如果您需要任何相关帮助或信息。

Joshua NemecekJoshua Nemecek

你有带音频样本的项目页面吗?

Pranav PawarPranav Pawar
论文作者
论文提交者

我确实有音频样本,不过还没单独制作项目页面,会尽快创建。

我可以在哪里联系你?

Joshua NemecekJoshua Nemecek

@prnvpwr2612 我已通过论文中的邮箱地址给你发了邮件。

tawsiftawsif

会有任何训练或微调代码吗?这听起来很有趣

Pranav PawarPranav Pawar
论文作者
论文提交者

是的,我们有。我们很快会为它创建一个项目页面,并公布代码。

Abhishek SharmaAbhishek Sharma

如果您的代码已准备好,请提供GitHub链接