⏶17
SIFT-50M:用于语音指令微调的大规模多语言数据集
发表
由
Prabhat Pandey 提交
作者:
Prabhat Pandey, Rupak Vignesh Swaminathan,
K V Vijay Girish,
Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz
摘要
我们介绍了 SIFT(语音指令微调),一个包含 5 千万个示例的数据集,专为语音-文本大型语言模型 (LLM) 的指令微调和预训练而设计。SIFT-50M 构建于公开可用的语音语料库,这些语料库总共包含 1.4 万小时的语音,并利用 LLM 以及现成的专家模型。该数据集跨越五种语言,涵盖了广泛的语音理解以及可控的语音生成指令。使用 SIFT-50M,我们训练了 SIFT-LLM,它在指令跟随基准测试中优于现有的语音-文本 LLM,同时在基础语音任务上实现了具有竞争力的性能。为了支持进一步的研究,我们还推出了 EvalSIFT,这是一个专门用于评估语音-文本 LLM 指令跟随能力的基准数据集。
做得不错。这个模型支持多少种语言?