一个以数据为中心的框架,用于解决俄语语音生成模型中的语音和韵律挑战

发表
kirilkiril 提交
作者: kirilKirill Borodin, Nikita Vasiliev, Vasiliy kudryavtsevVasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian

摘要

俄语语音合成面临独特的挑战,包括元音弱化、辅音清化、可变重音模式、同形异义词模糊性和不自然的语调。本文介绍了Balalaika,这是一个新颖的数据集,包含2000多小时录音室品质的俄语语音,并附有全面的文本标注,包括标点符号和重音标记。实验结果表明,在Balalaika上训练的模型在语音合成和增强任务中均显著优于在现有数据集上训练的模型。我们详细介绍了数据集构建流程、标注方法和比较评估结果。
查看 arXiv 页面查看 PDF

评论

kirilkiril
论文作者
论文提交者

官方仓库:https://github.com/mtuciru/balalaika

官方Hugging Face合集:https://huggingface.co/collections/MTUCI/balalaika-68630b399254bf151885427e

Kirill的Telegram频道:https://t.me/korallll_ai

Yury PanikovYury Panikov

谢谢