⏶119
MiniMax-Speech:具有可学习说话人编码器的固有零样本文本转语音
发表
由
MiniMax 提交

作者: Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai,
Junjie Yan, Kaiyue Yang,
Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao, Yiying Zhou,
Yongmao Zhang, Yuan Lu, Yucen He
摘要
我们推出 MiniMax-Speech,这是一个基于自回归 Transformer 的文本转语音 (TTS) 模型,可以生成高质量语音。一个关键创新是我们可学习的说话人编码器,它可以从参考音频中提取音色特征,而无需提供其文字转录。这使得 MiniMax-Speech 能够以零样本的方式生成高度富有表现力的语音,音色与参考一致,同时还支持与参考声音具有极高相似度的一次性声音克隆。此外,通过提出的 Flow-VAE,合成音频的整体质量得到了提升。我们的模型支持 32 种语言,并在多项客观和主观评估指标上展现出卓越的性能。值得一提的是,它在客观声音克隆指标(词错误率和说话人相似度)上取得了最先进 (SOTA) 的结果,并在公开的 TTS Arena 排行榜上获得了第一名。MiniMax-Speech 的另一个关键优势,归功于说话人编码器提供的鲁棒且解耦的表示,是其无需修改基础模型即可实现的可扩展性,从而支持多种应用,例如:通过 LoRA 进行任意语音情感控制;通过从文本描述中直接合成音色特征来实现文本转声音 (T2V);以及通过使用额外数据微调音色特征来实现专业声音克隆 (PVC)。我们鼓励读者访问 https://minimax-ai.github.io/tts_tech_report 查看更多示例。
我们介绍 MiniMax-Speech,这是一个基于自回归 Transformer 的文本转语音(TTS)模型,能够生成高质量语音。一个关键创新是我们可学习的说话人编码器,它可以从参考音频中提取音色特征,而不需要其转录文本。这使得 MiniMax-Speech 能够以零样本(zero-shot)的方式生成音色与参考音频一致且富有表现力的语音,同时支持一次性(one-shot)语音克隆,与参考语音相似度极高。此外,通过提出的 Flow-VAE,合成音频的整体质量得到了增强。我们的模型支持 32 种语言,并在多项客观和主观评估指标上展现出卓越的性能。值得一提的是,它在客观语音克隆指标(词错误率和说话人相似度)上取得了最先进(SOTA)的结果,并在公共 TTS Arena 排行榜上名列前茅。MiniMax-Speech 的另一个关键优势是,得益于说话人编码器提供的鲁棒且解耦的表示,它具有无需修改基础模型的可扩展性,从而支持多种应用,例如:通过 LoRA 进行任意语音情感控制;通过直接从文本描述合成音色特征来实现文本转语音(T2V);以及通过使用额外数据微调音色特征来实现专业语音克隆(PVC)。我们鼓励读者访问 MiniMax-Speech-Tech-Report 查看更多示例。