⏶1
SAKURA:基于语音和音频信息的大型音频-语言模型的多跳推理
发表
由
Chih-Kai Yang 提交
作者:
Chih-Kai Yang, Neo Ho, Yen-Ting Piao, Hung-yi Lee
摘要
大型音频语言模型(LALMs)扩展了大型语言模型,使其具备在语音、音频等多方面的多模态理解能力。尽管它们在语音和音频处理任务上的性能已被广泛研究,但其推理能力仍未得到充分探索。尤其是在多跳推理能力方面,即召回并整合多个事实的能力,仍缺乏系统性评估。现有的基准测试侧重于一般的语音和音频处理任务、对话能力以及公平性,但忽略了这一方面。为了弥补这一差距,我们引入了 SAKURA,这是一个基于语音和音频信息评估 LALMs 多跳推理能力的基准测试。结果表明,即使 LALMs 正确地提取了相关信息,它们在整合语音/音频表示进行多跳推理时仍遇到困难,这凸显了多模态推理中的一个基本挑战。我们的发现揭示了 LALMs 的一个关键局限性,为未来的研究提供了见解和资源。
Interspeech 2025。项目页面: https://github.com/ckyang1124/SAKURA