NVSpeech:用于类人语音建模的集成可扩展管线,含副语言发声

发表
Yuancheng WangYuancheng Wang 提交
作者: Huan Liao, Qinke Ni, Yuancheng WangYuancheng Wang, Yiheng Lu, Haoyue Zhan, Pengyuan Xie, Qiang Zhang, Zhizheng Wu

摘要

副语言发声——包括非语言声音如笑声和呼吸,以及词汇化的感叹词如“嗯”和“哦”——是自然口语交流不可或缺的一部分。尽管它们在传达情感、意图和互动提示方面很重要,但这些提示在传统的自动语音识别(ASR)和文本转语音(TTS)系统中仍然被大大忽略。我们提出了 NVSpeech,一个集成且可扩展的流程,它弥合了副语言发音的识别和合成,涵盖数据集构建、ASR 建模和可控 TTS。(1) 我们引入了一个手动标注的数据集,包含 48,430 条人类语音话语,分为 18 个词级副语言类别。(2) 我们开发了副语言感知的 ASR 模型,该模型将副语言提示视为行内可解码的令牌(例如,“你太搞笑了 [笑声]”),从而实现词汇和非语言的联合转录。然后,该模型用于自动标注一个大型语料库,这是第一个大规模中文数据集,包含 174,179 条话语(573 小时),具有词级对齐和副语言提示。(3) 我们在人类和自动标注数据上对零样本 TTS 模型进行微调,以实现对副语言发音的显式控制,允许在任意令牌位置进行上下文感知插入,以实现类人语音合成。通过统一副语言发音的识别和生成,NVSpeech 为普通话中的富有表现力的语音建模提供了第一个开放的、大规模的、词级标注的流程,以可扩展和可控的方式集成了识别和合成。数据集和音频演示可在 https://nvspeech170k.github.io/ 获得。
查看 arXiv 页面查看 PDF

评论

Yuancheng WangYuancheng Wang
论文作者
论文提交者

https://nvspeech170k.github.io/