FAMA:第一个面向英语和意大利语的大规模开放科学语音基础模型

发表
Sara PapiSara Papi 提交
作者: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih AliMohamed Nabih, Matteo Negri

摘要

Whisper 和 SeamlessM4T 等语音基础模型 (SFM) 的发展极大地推动了语音处理领域。然而,它们的封闭性——训练数据和代码无法访问——带来了重大的可复现性和公平评估挑战。虽然其他领域通过开发在开源 (OS) 代码和数据上训练的完全透明模型,在开放科学方面取得了实质性进展,但语音领域的类似努力仍然有限。为了弥补这一空白,我们引入了 FAMA,这是第一个面向英语和意大利语的开放科学 SFM 系列,在超过 15 万小时的 OS 语音数据上进行了训练。此外,我们还提供了一个新的数据集,包含 1.6 万小时经过清理和伪标签化的这两种语言的语音数据。结果表明,与现有 SFM 相比,FAMA 取得了具有竞争力的性能,同时速度快了多达 8 倍。所有成果,包括代码、数据集和模型,均在符合 OS 规范的许可下发布,促进了语音技术研究的开放性。
查看 arXiv 页面查看 PDF
FAMA:第一个面向英语和意大利语的大规模开放科学语音基础模型

评论

Sara PapiSara Papi
论文提交者

🚀 最新技术报告出炉!隆重推出 FAMA,一个新的开放科学语音基础模型系列,用于🇬🇧英语和🇮🇹意大利语的自动语音识别 (ASR) 和语音翻译 (ST)。

🔗 模型已上线,可在 Huggingface 上试用