⏶47
一个以数据为中心的框架,用于解决俄语语音生成模型中的语音和韵律挑战
发表
由
kiril 提交
作者:
Kirill Borodin, Nikita Vasiliev,
Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
摘要
俄语语音合成面临独特的挑战,包括元音弱化、辅音清化、可变重音模式、同形异义词模糊性和不自然的语调。本文介绍了Balalaika,这是一个新颖的数据集,包含2000多小时录音室品质的俄语语音,并附有全面的文本标注,包括标点符号和重音标记。实验结果表明,在Balalaika上训练的模型在语音合成和增强任务中均显著优于在现有数据集上训练的模型。我们详细介绍了数据集构建流程、标注方法和比较评估结果。
评论
arXiv explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/a-data-centric-framework-for-addressing-phonetic-and-prosodic-challenges-in-russian-speech-generative-models
官方仓库:https://github.com/mtuciru/balalaika
官方Hugging Face合集:https://huggingface.co/collections/MTUCI/balalaika-68630b399254bf151885427e
Kirill的Telegram频道:https://t.me/korallll_ai