⏶20

FAMA：第一个面向英语和意大利语的大规模开放科学语音基础模型

05月28日发表

05月30日由 Sara Papi 提交

作者: Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih Ali Mohamed Nabih, Matteo Negri

摘要

Whisper 和 SeamlessM4T 等语音基础模型 (SFM) 的发展极大地推动了语音处理领域。然而，它们的封闭性——训练数据和代码无法访问——带来了重大的可复现性和公平评估挑战。虽然其他领域通过开发在开源 (OS) 代码和数据上训练的完全透明模型，在开放科学方面取得了实质性进展，但语音领域的类似努力仍然有限。为了弥补这一空白，我们引入了 FAMA，这是第一个面向英语和意大利语的开放科学 SFM 系列，在超过 15 万小时的 OS 语音数据上进行了训练。此外，我们还提供了一个新的数据集，包含 1.6 万小时经过清理和伪标签化的这两种语言的语音数据。结果表明，与现有 SFM 相比，FAMA 取得了具有竞争力的性能，同时速度快了多达 8 倍。所有成果，包括代码、数据集和模型，均在符合 OS 规范的许可下发布，促进了语音技术研究的开放性。

查看 arXiv 页面查看 PDF

Sara Papi

论文提交者

🚀 最新技术报告出炉！隆重推出 FAMA，一个新的开放科学语音基础模型系列，用于🇬🇧英语和🇮🇹意大利语的自动语音识别 (ASR) 和语音翻译 (ST)。

🔗 模型已上线，可在 Huggingface 上试用

FAMA：第一个面向英语和意大利语的大规模开放科学语音基础模型

摘要

评论