EmergentTTS-Eval:使用模型作为评判者评估TTS模型在复杂的韵律、表现力和语言挑战上的表现

发表
Ruskin Raj MankuRuskin Raj Manku 提交
作者: Ruskin Raj MankuRuskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola

摘要

文本到语音 (TTS) 基准测试通常未能充分衡量模型处理细微且语义复杂的文本的能力。我们在 EmergentTTS 的基础上,引入了 EmergentTTS-Eval,这是一个全面的基准测试,涵盖六种具有挑战性的 TTS 场景:情感、副语言特征、外来词、句法复杂度、复杂发音(例如 URL、公式)和疑问句。至关重要的是,我们的框架自动化了测试用例的生成和评估,使得基准易于扩展。从一小组人工编写的种子提示开始,我们使用 LLMs 迭代扩展它们,以针对特定的结构、语音和韵律挑战,最终生成 1,645 个多样化的测试用例。此外,我们采用“模型即法官”的方法,使用大型音频语言模型 (LALM) 从表达情感、韵律、语调和发音准确性等多个维度评估语音。我们在 EmergentTTS-Eval 上评估了最先进的开源和专有 TTS 系统,例如 11Labs、Deepgram 和 OpenAI 的 4o-mini-TTS,证明了其揭示细粒度性能差异的能力。结果表明,“模型即法官”方法提供了稳健的 TTS 评估,并且与人类偏好高度相关。我们开源了评估 https://github.com/boson-ai/EmergentTTS-Eval-public{code} 和数据集 https://huggingface.co/datasets/bosonai/EmergentTTS-Eval{dataset}。
查看 arXiv 页面查看 PDF

评论

Ruskin Raj MankuRuskin Raj Manku
论文作者
论文提交者

评估代码和排行榜:https://github.com/boson-ai/EmergentTTS-Eval-public