⏶7
MiDashengLM:利用通用音频字幕实现高效音频理解
发表
由
Junbo Zhang 提交

作者: Heinrich Dinkel, Gang Li, Jizhong Liu, Jian Luan, Yadong Niu, Xingwei Sun, Tianzi Wang, Qiyang Xiao, Junbo Zhang, Jiahao Zhou
摘要
当前大型音频语言模型 (LALM) 的方法通常依赖于封闭数据源或专有模型,这限制了它们的泛化能力和可访问性。本文介绍了 MiDashengLM,这是一种新颖的开放音频语言模型,旨在通过使用我们新颖的 ACAVCaps 训练数据集中的通用音频字幕来实现高效和全面的音频理解。MiDashengLM 完全依赖于公开可用的预训练和监督微调 (SFT) 数据集,确保了完全的透明度和可复现性。MiDashengLM 的核心是集成了 Dasheng,一个开源音频编码器,专门设计用于有效处理多样化的听觉信息。与以前主要关注基于自动语音识别 (ASR) 的音频-文本对齐的工作不同,我们的策略侧重于通用音频字幕,将语音、声音和音乐信息融合到一个文本表示中,从而实现复杂音频场景的整体文本表示。最后,MiDashengLM 在首次生成标记时间 (TTFT) 方面提供高达 4 倍的加速,并且吞吐量比同类模型高出 20 倍。检查点可在 https://huggingface.co/mispeech/midashenglm-7b 和 https://github.com/xiaomi-research/dasheng-lm 在线获取。
Github仓库:https://github.com/xiaomi-research/dasheng-lm