⏶17

SIFT-50M：用于语音指令微调的大规模多语言数据集

04月12日发表

04月17日由 Prabhat Pandey 提交

作者: Prabhat Pandey, Rupak Vignesh Swaminathan, Girish K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

摘要

我们介绍了 SIFT（语音指令微调），一个包含 5 千万个示例的数据集，专为语音-文本大型语言模型 (LLM) 的指令微调和预训练而设计。SIFT-50M 构建于公开可用的语音语料库，这些语料库总共包含 1.4 万小时的语音，并利用 LLM 以及现成的专家模型。该数据集跨越五种语言，涵盖了广泛的语音理解以及可控的语音生成指令。使用 SIFT-50M，我们训练了 SIFT-LLM，它在指令跟随基准测试中优于现有的语音-文本 LLM，同时在基础语音任务上实现了具有竞争力的性能。为了支持进一步的研究，我们还推出了 EvalSIFT，这是一个专门用于评估语音-文本 LLM 指令跟随能力的基准数据集。

查看 arXiv 页面查看 PDF

Prabhat Pandey

论文作者

论文提交者

做得不错。这个模型支持多少种语言？

SIFT-50M：用于语音指令微调的大规模多语言数据集

摘要

评论