⏶47

一个以数据为中心的框架，用于解决俄语语音生成模型中的语音和韵律挑战

07月17日发表

07月21日由 kiril 提交

作者: Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian

摘要

俄语语音合成面临独特的挑战，包括元音弱化、辅音清化、可变重音模式、同形异义词模糊性和不自然的语调。本文介绍了Balalaika，这是一个新颖的数据集，包含2000多小时录音室品质的俄语语音，并附有全面的文本标注，包括标点符号和重音标记。实验结果表明，在Balalaika上训练的模型在语音合成和增强任务中均显著优于在现有数据集上训练的模型。我们详细介绍了数据集构建流程、标注方法和比较评估结果。

查看 arXiv 页面查看 PDF

kiril

论文作者

论文提交者

官方仓库：https://github.com/mtuciru/balalaika

官方Hugging Face合集：https://huggingface.co/collections/MTUCI/balalaika-68630b399254bf151885427e

Kirill的Telegram频道：https://t.me/korallll_ai

Grant Singleton

arXiv explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/a-data-centric-framework-for-addressing-phonetic-and-prosodic-challenges-in-russian-speech-generative-models

Yury Panikov

谢谢

一个以数据为中心的框架，用于解决俄语语音生成模型中的语音和韵律挑战

摘要

评论