⏶4
LLaSO:大型语言与语音模型可复现研究的基石框架
发表
由
Yirong Sun 提交
作者:
Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
摘要
大型语音-语言模型(LSLM)的发展因碎片化的架构和缺乏透明度而受到阻碍,这阻碍了研究的系统性比较和可重复性。与视觉-语言领域不同,LSLM领域普遍存在发布模型权重而不发布相应的训练数据和配置的通病。为了弥合这些关键差距,我们提出了LLaSO,这是第一个用于大规模语音-语言建模的全开源、端到端框架。LLaSO为社区提供了三个基本资源:(1) LLaSO-Align,一个包含1200万个实例的语音-文本对齐语料库;(2) LLaSO-Instruct,一个包含1350万个实例的多任务指令微调数据集;以及(3) LLaSO-Eval,一个用于标准化评估的可复现基准。为了验证我们的框架,我们构建并发布了LLaSO-Base,一个仅在我们公开数据上训练的38亿参数的参考模型。它取得了0.72的归一化得分,建立了一个强大的、可复现的基线,超越了同类模型。我们的分析表明,尽管更广泛的训练覆盖范围可以提高性能,但在看不见的任务上,尤其是在纯音频场景中,仍然存在显著的泛化差距。通过发布完整的数据、基准和模型栈,LLaSO建立了一个基础性的开放标准,以统一研究工作并加速社区驱动的LSLM进展。我们在 https://github.com/EIT-NLP/LLaSO 发布了代码、数据集、预训练模型和结果。
我们推出了 LLaSO,这是第一个完全开放、端到端的用于大规模语音-语言建模的栈。
它在一个框架中统一了语料库、基准和参考模型:
LLaSO-Instruct (13.5M) 多任务指令调整数据集
LLaSO-Align (12M) 语音-文本对齐数据集
LLaSO-Eval (15K) 分层基准
LLaSO-Base (3.8B) 两阶段训练的参考模型
👉 代码:https://github.com/EIT-NLP/LLaSO
👉 数据集:https://huggingface.co/datasets?search=LLaSO
👉 模型:https://huggingface.co/YirongSun/LLaSO-Base-3.8B-Instruct
我们目前正在上传 LLaSO-Instruct,并将很快发布 LLaSO-Align。
非常欢迎您提供反馈和贡献!