Marco-Voice 技术报告

发表
Chenyang LyuChenyang Lyu 提交
作者: Fengping Tian, Chenyang Lyu, NiXuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

摘要

本文介绍了一种多功能语音合成系统,该系统在一个统一框架内集成了语音克隆和情感控制语音合成。这项工作的目标是解决在实现高度富有表现力、可控且自然的语音生成方面长期存在的挑战,该系统能够在不同的语言和情感背景下忠实地保留说话者身份。我们的方法引入了一种有效的说话者-情感解耦机制,结合批内对比学习,实现了说话者身份和情感风格的独立操作,以及用于平滑情感控制的旋转情感嵌入集成方法。为了支持全面的训练和评估,我们构建了CSEMOTIONS,一个高质量情感语音数据集,包含来自六位专业说话者的10小时普通话语音,涵盖七种情感类别。广泛的实验表明,我们的系统Marco-Voice在客观和主观指标上都取得了显著的改进。通过全面的评估和分析,结果显示MarcoVoice在语音清晰度和情感丰富度方面提供了具有竞争力的性能,代表了表达性神经语音合成领域的一个重大进展。
查看 arXiv 页面查看 PDF

评论

Chenyang LyuChenyang Lyu
论文提交者

marco_vocie_fig_v3.jpeg

marco-voice-logo-3.png