⏶8
Omni-R1:你真的需要音频来微调你的音频大语言模型吗?
发表
由
Andrew Rouditchenko 提交
作者:
Andrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass
摘要
我们提出了 Omni-R1,它使用强化学习方法 GRPO 在音频问答数据集上微调了最近的多模态大型语言模型 Qwen2.5-Omni。这使得其在最近的 MMAU 基准测试上取得了新的最先进性能。Omni-R1 在 Test-mini 和 Test-full 分割的声音、音乐、语音和总平均类别上都取得了最高的准确率。为了理解性能提升,我们测试了有无音频的模型,发现 GRPO 的大部分性能提升可以归因于更好的基于文本的推理能力。我们还发现了一个令人惊讶的结果:在仅文本数据集上进行无音频的微调对于提高基于音频的性能是有效的。
关于该论文的讨论串:https://x.com/arouditchenko/status/19229771158576610