⏶8
Vox-Profile:表征多样化说话人与语音特征的语音基础模型评测基准
发表
由
Tiantian Feng 提交

作者:
Tiantian Feng, Jihwan Lee, Anfeng Xu, Yoonjeong Lee, Thanathai Lertpetchpun, Xuan Shi,
Helin Wang, Thomas Thebaud, Laureano Moro-Velazquez, Dani Byrd, Najim Dehak, Shrikanth Narayanan

摘要
我们引入 Vox-Profile,这是一个使用语音基础模型来描述丰富的说话人和语音特征的全面基准。与现有专注于单一维度说话人特征的工作不同,Vox-Profile 提供了全面且多维度的画像,反映了静态说话人特征(例如,年龄、性别、口音)和动态语音属性(例如,情感、语流)。此基准基于语音科学和语言学,并与领域专家共同开发,以准确地索引说话人和语音特性。我们使用超过 15 个公开可用的语音数据集和几个广泛使用的语音基础模型,针对各种静态和动态说话人和语音属性,报告了基准实验结果。除了基准实验外,我们还展示了 Vox-Profile 支持的几种下游应用。首先,我们展示 Vox-Profile 可以增强现有语音识别数据集,以分析 ASR 性能的可变性。Vox-Profile 也被用作评估语音生成系统性能的工具。最后,我们通过与人工评估的比较来评估我们自动化画像的质量,并显示出收敛效度。Vox-Profile 已公开可用,地址为:https://github.com/tiantiaf0627/vox-profile-release。
我们提出了 Vox-Profile,这是首批系统评估讲英语的声音中丰富的多维度说话人及语音特性的基准测试项目之一。我们的 Vox-Profile 可用作支持多功能语音应用的基础组件。现在模型已开始在 Huggingface 上提供。