Audio Flamingo 3:通过完全开放的大型音频语言模型提升音频智能

发表
GhoshGhosh 提交
作者: Arushi Goel, GhoshSreyan Ghosh, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro

摘要

我们推出了 Audio Flamingo 3 (AF3),这是一款完全开放、最先进 (SOTA) 的大型音频语言模型,它提升了在语音、音效和音乐领域的推理与理解能力。AF3 引入了:(i) AF-Whisper,一个统一的音频编码器,采用新颖的策略进行训练,以实现对语音、音效和音乐这三种模态的联合表示学习;(ii) 灵活的按需思考能力,允许模型在回答前进行思维链式推理;(iii) 多轮、多音频聊天;(iv) 长达 10 分钟的长音频(包括语音)理解与推理能力;以及 (v) 语音到语音交互。为实现这些功能,我们提出了几个采用新颖策略整理的大规模训练数据集,包括 AudioSkills-XL、LongAudio-XL、AF-Think 和 AF-Chat,并采用一种新颖的五阶段课程学习策略来训练 AF3。AF3 仅使用开源音频数据进行训练,在超过 20 个(长)音频理解与推理基准上取得了新的 SOTA 成果,超越了那些在更大规模数据集上训练的开源权重模型和闭源模型。
查看 arXiv 页面查看 PDF

评论

GhoshGhosh
论文作者
论文提交者

模型、权重和代码:https://research.nvidia.com/labs/adlr/AF3/