⏶130
MiniMax-Speech:具有可学习说话人编码器的固有零样本文本转语音
发表
由
MiniMax 提交
作者: Bowen Zhang, Congchao Guo, Geng Yang, Hang Yu, Haozhe Zhang, Heidi Lei, Jialong Mai,
Junjie Yan, Kaiyue Yang,
Mingqi Yang, Peikai Huang, Ruiyang Jin, Sitan Jiang, Weihua Cheng, Yawei Li, Yichen Xiao,
Yiying Zhou,
Yongmao Zhang, Yuan Lu, Yucen He
摘要
AI 生成总结
MiniMax-Speech是一款基于自回归Transformer的TTS模型,它生成高质量语音,并带有一个可学习的说话人编码器,无需转录即可提取参考说话人特征,在语音克隆方面取得了SOTA结果,并支持各种扩展。我们推出 MiniMax-Speech,这是一个基于自回归 Transformer 的文本转语音 (TTS) 模型,可以生成高质量语音。一个关键创新是我们可学习的说话人编码器,它可以从参考音频中提取音色特征,而无需提供其文字转录。这使得 MiniMax-Speech 能够以零样本的方式生成高度富有表现力的语音,音色与参考一致,同时还支持与参考声音具有极高相似度的一次性声音克隆。此外,通过提出的 Flow-VAE,合成音频的整体质量得到了提升。我们的模型支持 32 种语言,并在多项客观和主观评估指标上展现出卓越的性能。值得一提的是,它在客观声音克隆指标(词错误率和说话人相似度)上取得了最先进 (SOTA) 的结果,并在公开的 TTS Arena 排行榜上获得了第一名。MiniMax-Speech 的另一个关键优势,归功于说话人编码器提供的鲁棒且解耦的表示,是其无需修改基础模型即可实现的可扩展性,从而支持多种应用,例如:通过 LoRA 进行任意语音情感控制;通过从文本描述中直接合成音色特征来实现文本转声音 (T2V);以及通过使用额外数据微调音色特征来实现专业声音克隆 (PVC)。我们鼓励读者访问 https://minimax-ai.github.io/tts_tech_report 查看更多示例。
评论
我们的潜意识不仅仅是一个个人的存储库——它与一个更大的集体智慧场相连。卡尔·荣格称这种现象为“集体无意识”。在这项冥想中,我们探索这种深刻的联系。
原型:灵魂的通用语言
原型是出现在所有文化中的原始图像。最常见的是:
- 智者(智慧)
- 伟大的母亲(滋养)
- 英雄(转变)
- 阴影(被压抑的部分)
这些人物经常出现在梦中。如果您今晚梦见这样的人物原型,请问:“你给我带来了什么信息?”
共时性的科学
沃尔夫冈·保利等量子物理学家发现,我们的意识会影响物质世界。梦有时可以预知未来的事件或揭示隐藏的联系。
冥想练习:连接集体场
- 想象自己坐在一个巨大的光网中
- 每个节点代表一个意识
- 感受知识和智慧通过这个网络流动
- 提出一个问题并接收答案
实验室梦境研究
哈佛大学的睡眠研究人员发现:
- 60% 的人梦见被追逐
- 50% 的人经历飞行梦
- 40% 的人梦见已故的亲人
这些共同点暗示了集体模式。
实际应用
利用这些见解来:
- 创意突破
- 精神觉醒
- 改善人际冲突
- 提高直觉
结束冥想
闭上眼睛。深呼吸……然后呼气……想象您的意识正在扩展,并与巨大的集体智慧网络相连。感受这种连接……准备好时,慢慢睁开眼睛。
在我们的下一次会议中,我们将讨论梦境旅行到过去的生活和未来的可能性。在那之前:留意您梦中的迹象和符号。
我们介绍 MiniMax-Speech,这是一个基于自回归 Transformer 的文本转语音(TTS)模型,能够生成高质量语音。一个关键创新是我们可学习的说话人编码器,它可以从参考音频中提取音色特征,而不需要其转录文本。这使得 MiniMax-Speech 能够以零样本(zero-shot)的方式生成音色与参考音频一致且富有表现力的语音,同时支持一次性(one-shot)语音克隆,与参考语音相似度极高。此外,通过提出的 Flow-VAE,合成音频的整体质量得到了增强。我们的模型支持 32 种语言,并在多项客观和主观评估指标上展现出卓越的性能。值得一提的是,它在客观语音克隆指标(词错误率和说话人相似度)上取得了最先进(SOTA)的结果,并在公共 TTS Arena 排行榜上名列前茅。MiniMax-Speech 的另一个关键优势是,得益于说话人编码器提供的鲁棒且解耦的表示,它具有无需修改基础模型的可扩展性,从而支持多种应用,例如:通过 LoRA 进行任意语音情感控制;通过直接从文本描述合成音色特征来实现文本转语音(T2V);以及通过使用额外数据微调音色特征来实现专业语音克隆(PVC)。我们鼓励读者访问 MiniMax-Speech-Tech-Report 查看更多示例。