⏶23

优化多语种文本转语音（带口音与情感）

06月19日发表

06月23日由 Pranav Pawar 提交

作者: Pranav Pawar, Akshansh Dwivedi, Jenish Boricha, Himanshu Gohil, Aditya Dubey

摘要

最先进的文本到语音（TTS）系统在单语环境中实现了高度的自然度，但合成具有正确多语言口音（特别是对于印度语言）和语境相关情感的语音仍然存在困难，这是由于当前框架中存在文化细微差别差异。本文介绍了一种新的TTS架构，该架构集成了口音，同时保留了音译并采用了多尺度情感建模，尤其针对印地语和印度英语口音进行了调整。我们的方法扩展了Parler-TTS模型，通过集成一个语言特定的音素对齐混合编码器-解码器架构，以及在母语者语料库上训练的文化敏感情感嵌入层，并结合了带有残差向量量化的动态口音代码切换。定量测试表明，口音准确性提高了23.7%（词错误率从15.4%降至11.8%），母语听众的情感识别准确率达到85.3%，超越了METTS和VECL-TTS基线。该系统的创新之处在于它能够实时进行代码混合，生成诸如"Namaste, let's talk about <Hindi phrase>"之类的语句，实现不间断的口音转换，同时保持情感一致性。对200名用户的主观评估显示，文化正确性方面的平均主观意见得分（MOS）为4.2/5，远优于现有多种语言系统（p<0.01）。这项研究通过展示可扩展的口音-情感解耦，使得跨语言合成更加可行，在南亚教育科技和无障碍软件领域具有直接应用价值。

查看 arXiv 页面查看 PDF

Pranav Pawar

论文作者

论文提交者

大家好！

如果您对这篇论文有任何疑问，请随时提出。

或者如果您需要任何相关帮助或信息。

Joshua Nemecek

你有带音频样本的项目页面吗？

Pranav Pawar

论文作者

论文提交者

我确实有音频样本，不过还没单独制作项目页面，会尽快创建。

我可以在哪里联系你？

Joshua Nemecek

@prnvpwr2612 我已通过论文中的邮箱地址给你发了邮件。

tawsif

会有任何训练或微调代码吗？这听起来很有趣

Pranav Pawar

论文作者

论文提交者

是的，我们有。我们很快会为它创建一个项目页面，并公布代码。

Abhishek Sharma

优化多语种文本转语音（带口音与情感）

摘要

评论