⏶6
CapSpeech:在风格字幕文本到语音中实现下游应用
发表
由
Helin Wang 提交
作者:
Helin Wang,
Jiarui Hai, Dading Chong,
Karan Thakkar, Tiantian Feng, Dongchao Yang, Junhyeok Lee, Laureano Moro Velazquez, Jesus Villalba, Zengyi Qin, Shrikanth Narayanan, Mounya Elhiali, Najim Dehak

摘要
生成式人工智能的最新进展显著改变了风格字幕文本到语音合成(CapTTS)领域。然而,由于缺乏标准化、全面的数据集以及对基于 CapTTS 的下游任务研究有限,将 CapTTS 应用于实际应用仍然充满挑战。为了弥补这些空白,我们引入了 CapSpeech,一个专为一系列 CapTTS 相关任务设计的新基准,包括带声音事件的风格字幕文本到语音合成(CapTTS-SE)、口音字幕 TTS(AccCapTTS)、情感字幕 TTS(EmoCapTTS)以及用于聊天代理的文本到语音合成(AgentTTS)。CapSpeech 包含超过 1000 万对机器标注的音频-字幕对和近 36 万对人工标注的音频-字幕对。此外,我们引入了两个由专业配音演员和经验丰富的音频工程师收集和录制的新数据集,专门用于 AgentTTS 和 CapTTS-SE 任务。除了数据集,我们还在 CapSpeech 上使用自回归和非自回归模型进行了全面的实验。我们的结果表明,CapSpeech 在各种口语风格中实现了高保真和高度可懂的语音合成。据我们所知,CapSpeech 是目前最大的可用数据集,为 CapTTS 相关任务提供了全面的标注。实验和发现进一步为开发 CapTTS 系统所面临的挑战提供了宝贵的见解。
我们很高兴分享我们最近的工作,题为“CapSpeech:在风格字幕文本转语音中实现下游应用”
📄 论文:https://arxiv.org/abs/2506.02863
🌐 项目页面:https://wanghelin1997.github.io/CapSpeech-demo/
🚀 Spaces 演示:https://huggingface.co/spaces/OpenSound/CapSpeech-TTS