通过耳蜗令牌的自回归预测来表示语音

发表
Klemen KotarKlemen Kotar 提交
作者: Greta TuckuteGreta Tuckute, Klemen KotarKlemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins

摘要

我们引入了AuriStream,一个受生物学启发的模型,通过一个受人类听觉处理层次启发的两阶段框架对语音进行编码。第一阶段将原始音频转换为基于人类耳蜗的时频表示,从中我们提取离散的耳蜗标记。第二阶段在耳蜗标记上应用自回归序列模型。AuriStream学习有意义的音素和单词表示,以及最先进的词汇语义。AuriStream在各种下游SUPERB语音任务上表现出有竞争力的性能。除了AuriStream强大的表示能力,它还能生成音频的延续,这些延续可以在频谱图空间中可视化并解码回音频,从而提供对模型预测的洞察。总而言之,我们提出了一个两阶段的语音表示学习框架,以促进开发更像人类的模型,高效处理一系列基于语音的任务。
查看 arXiv 页面查看 PDF

评论

Klemen KotarKlemen Kotar
论文作者
论文提交者

我们引入了 AuriStream,这是一种受生物学启发的模型,通过受人类听觉处理层次结构启发的两阶段框架对语音进行编码。第一阶段将原始音频转换为基于人类耳蜗的时频表示,从中我们提取离散的耳蜗标记。第二阶段在耳蜗标记上应用自回归序列模型。AuriStream 学习有意义的音素和单词表示,以及最先进的词汇语义。AuriStream 在各种下游 SUPERB 语音任务上表现出有竞争力的性能。除了 AuriStream 强大的表示能力之外,它还生成音频的延续,这些延续可以在频谱图空间中可视化并解码回音频,从而提供对模型预测的深入了解。总而言之,我们提出了一个两阶段的语音表示学习框架,以促进开发更像人类的模型,从而高效处理一系列基于语音的任务。