⏶2
MIKU-PAL:一种自动化和标准化的语音语副语言和情感标注多模态方法
发表
由
PoTaTo 提交

作者: Yifan Cheng, Ruoyi Zhang, Jiatong Shi
摘要
获取具有强一致性的大规模情感语音数据对于语音合成仍然是一个挑战。本文介绍了MIKU-PAL,这是一个全自动多模态管道,用于从未标记的视频数据中提取高一致性情感语音。利用面部检测和跟踪算法,我们开发了一个使用多模态大语言模型(MLLM)的自动情感分析系统。我们的结果表明,MIKU-PAL能够达到人类水平的准确率(在MELD上为68.5%)和卓越的一致性(Fleiss Kappa得分为0.93),同时比人工标注更经济、更快速。凭借MIKU-PAL提供的高质量、灵活且一致的标注,我们能够标注多达26种细粒度语音情感类别,并由人类标注员验证其合理性评分为83%。基于我们提出的系统,我们进一步发布了一个细粒度情感语音数据集MIKU-EmoBench(131.2小时),作为情感文本转语音和视觉语音克隆的新基准。
讨论一种新的音频数据标注方法。