MiniMax-Speech:具有可学习说话人编码器的固有零样本文本转语音

发表
MiniMaxMiniMax 提交
作者: Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai, JunjieYanJunjie Yan, Kaiyue Yang, Mingqi YangMingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou, yongmao zhangYongmao Zhang, Yuan Lu, Yucen He

摘要

我们推出 MiniMax-Speech,这是一个基于自回归 Transformer 的文本转语音 (TTS) 模型,可以生成高质量语音。一个关键创新是我们可学习的说话人编码器,它可以从参考音频中提取音色特征,而无需提供其文字转录。这使得 MiniMax-Speech 能够以零样本的方式生成高度富有表现力的语音,音色与参考一致,同时还支持与参考声音具有极高相似度的一次性声音克隆。此外,通过提出的 Flow-VAE,合成音频的整体质量得到了提升。我们的模型支持 32 种语言,并在多项客观和主观评估指标上展现出卓越的性能。值得一提的是,它在客观声音克隆指标(词错误率和说话人相似度)上取得了最先进 (SOTA) 的结果,并在公开的 TTS Arena 排行榜上获得了第一名。MiniMax-Speech 的另一个关键优势,归功于说话人编码器提供的鲁棒且解耦的表示,是其无需修改基础模型即可实现的可扩展性,从而支持多种应用,例如:通过 LoRA 进行任意语音情感控制;通过从文本描述中直接合成音色特征来实现文本转声音 (T2V);以及通过使用额外数据微调音色特征来实现专业声音克隆 (PVC)。我们鼓励读者访问 https://minimax-ai.github.io/tts_tech_report 查看更多示例。
查看 arXiv 页面查看 PDF

评论

MiniMaxMiniMax
论文提交者

我们介绍 MiniMax-Speech,这是一个基于自回归 Transformer 的文本转语音(TTS)模型,能够生成高质量语音。一个关键创新是我们可学习的说话人编码器,它可以从参考音频中提取音色特征,而不需要其转录文本。这使得 MiniMax-Speech 能够以零样本(zero-shot)的方式生成音色与参考音频一致且富有表现力的语音,同时支持一次性(one-shot)语音克隆,与参考语音相似度极高。此外,通过提出的 Flow-VAE,合成音频的整体质量得到了增强。我们的模型支持 32 种语言,并在多项客观和主观评估指标上展现出卓越的性能。值得一提的是,它在客观语音克隆指标(词错误率和说话人相似度)上取得了最先进(SOTA)的结果,并在公共 TTS Arena 排行榜上名列前茅。MiniMax-Speech 的另一个关键优势是,得益于说话人编码器提供的鲁棒且解耦的表示,它具有无需修改基础模型的可扩展性,从而支持多种应用,例如:通过 LoRA 进行任意语音情感控制;通过直接从文本描述合成音色特征来实现文本转语音(T2V);以及通过使用额外数据微调音色特征来实现专业语音克隆(PVC)。我们鼓励读者访问 MiniMax-Speech-Tech-Report 查看更多示例。