BUT 系统参加 MLC-SLM 挑战赛

发表
Alexander PolokAlexander Polok 提交
作者: Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget

摘要

我们提出了一个双说话人自动语音识别(ASR)系统,该系统结合了 DiCoW(Whisper 的一种基于说话人分离的变体)和 DiariZen(一个基于 Pyannote 构建的说话人分离流水线)。我们首先在未进行任何微调的域外(OOD)多语言场景中评估了这两个系统。在此场景下,DiariZen 始终优于基线 Pyannote 说话人分离模型,展现出强大的泛化能力。尽管 DiCoW 针对目标说话人 ASR 仅在英语数据上进行了微调,但它仍保持了稳健的多语言性能,这表明编码器修改保留了 Whisper 的多语言能力。随后,我们对 DiCoW 和 DiariZen 在 MLC-SLM 挑战赛数据上进行了微调。微调后的 DiariZen 继续优于微调后的 Pyannote 基线,而 DiCoW 则从领域适应中获得了进一步的提升。我们最终的系统实现了 16.75% 的微平均 tcpWER/CER,并在 MLC-SLM 挑战赛任务 2 中排名第二。最后,我们发现在训练数据中存在一些标注不一致问题,例如缺失的语音段和不正确的静音标注,这可能会阻碍说话人分离的微调。我们提出了简单的缓解策略来解决这些问题并提高系统鲁棒性。
查看 arXiv 页面查看 PDF

评论

Alexander PolokAlexander Polok
论文提交者

我们提出了一种双说话人自动语音识别(ASR)系统,该系统将 DiCoW(Whisper 的一种基于说话人识别条件的变体)与 DiariZen(一个基于 Pyannote 构建的说话人识别流程)相结合。我们的系统在 MLC-SLM 挑战赛的任务 2 中,微平均 tcpWER/CER 达到 16.75%,排名第二。

Bhavik PanchalBhavik Panchal

嘿 Lakoc!这太棒了。你创建的这个模型有 Git 仓库吗?

Alexander PolokAlexander Polok
论文提交者

您好,

这是用于训练的仓库(将在几周后随后续论文的发布而更新):

https://github.com/BUTSpeechFIT/TS-ASR-Whisper

这是用于推理的仓库(mlc-slm 分支支持使用新的 MLC 模型进行推理):

https://github.com/BUTSpeechFIT/DiCoW