⏶15

Marco-Voice 技术报告

08月04日发表

08月08日由 Chenyang Lyu 提交

作者: Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

摘要

本文介绍了一种多功能语音合成系统，该系统在一个统一框架内集成了语音克隆和情感控制语音合成。这项工作的目标是解决在实现高度富有表现力、可控且自然的语音生成方面长期存在的挑战，该系统能够在不同的语言和情感背景下忠实地保留说话者身份。我们的方法引入了一种有效的说话者-情感解耦机制，结合批内对比学习，实现了说话者身份和情感风格的独立操作，以及用于平滑情感控制的旋转情感嵌入集成方法。为了支持全面的训练和评估，我们构建了CSEMOTIONS，一个高质量情感语音数据集，包含来自六位专业说话者的10小时普通话语音，涵盖七种情感类别。广泛的实验表明，我们的系统Marco-Voice在客观和主观指标上都取得了显著的改进。通过全面的评估和分析，结果显示MarcoVoice在语音清晰度和情感丰富度方面提供了具有竞争力的性能，代表了表达性神经语音合成领域的一个重大进展。

查看 arXiv 页面查看 PDF

Chenyang Lyu

论文提交者

Marco-Voice 技术报告

摘要

评论