自监督语音模型对荷兰语了解多少?分析特定语言预训练的优势

发表
Marianne de Heer KlootsMarianne de Heer Kloots 提交
作者: Marianne de Heer KlootsMarianne de Heer Kloots, Hosein Mohebbi, Charlotte Pouw, Gaofei Shen, Willem Zuidema, Martijn Bentum

摘要

自监督模型学习到的语音表征的语言特异性程度如何?现有研究表明,仅通过语音录音训练的端到端模型,可以成功解码出一系列语言特征。然而,目前尚不清楚在特定语言上进行预训练,能在多大程度上改善语言特异性语言信息。在本文中,我们测试了自监督 Wav2Vec2 模型内部表征中荷兰语音素和词汇信息的编码情况。与在同等数量的英语数据或更大数量的多语言数据上进行预训练相比,专门在荷兰语上进行预训练改善了荷兰语语言特征的表征。这种语言特异性优势可以通过经过训练的聚类或分类探针很好地检测到,并且可以使用零样本指标部分观察到。此外,语言特征编码方面的这种语言特异性益处与自动语音识别的下游任务表现相符。
查看 arXiv 页面查看 PDF

评论

Marianne de Heer KlootsMarianne de Heer Kloots
论文作者
论文提交者

自监督模型学习到的语音表征在多大程度上是语言特异的?现有研究表明,仅通过语音录音训练的端到端模型可以成功解码一系列语言特征。然而,在特定语言上进行预训练能在多大程度上提升语言特异性语言信息,这一点尚不清楚。在本文中,我们检验了自监督 Wav2Vec2 模型的内部表征中荷兰语语音和词汇信息的编码情况。相比于在类似数量的英语数据或更大数量的多语言数据上进行预训练,仅在荷兰语上进行预训练能更好地表征荷兰语语言特征。这种语言特异性优势可以被训练过的聚类或分类探针很好地检测到,并且可以通过零样本度量部分地观察到。此外,语言特异性对语言特征编码的益处与自动语音识别(ASR)的下游性能相符。