VoiceAssistant-Eval:跨听、说、看评估 AI 助手

发表
WangKeWangKe 提交
作者: WangKeKe Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li

摘要

AI 生成总结
VoiceAssistant-Eval 是一个用于评估 AI 助手在听、说、看任务中的基准,揭示了模型性能的见解并确定了改进领域。
大型语言模型和多模态系统日益增长的能力激发了人们对语音优先 AI 助手的兴趣,但现有的基准不足以评估这些系统的全部功能。我们引入了 VoiceAssistant-Eval,这是一个全面的基准,旨在跨听、说和看评估 AI 助手。VoiceAssistant-Eval 包含 10,497 个示例,涵盖 13 个任务类别。这些任务包括听觉的自然声音、音乐和口语对话;口语的多轮对话、角色扮演模仿和各种场景;以及视觉的高度异构图像。为了展示其效用,我们评估了 21 个开源模型和 GPT-4o-Audio,测量了响应内容和语音的质量,以及它们的一致性。结果显示了三个关键发现:(1)专有模型并不普遍优于开源模型;(2)大多数模型在口语任务上表现出色,但在音频理解方面滞后;(3)设计精良的小型模型可以与大型模型相媲美。值得注意的是,中型 Step-Audio-2-mini (7B) 的听觉准确率是 LLaMA-Omni2-32B-Bilingual 的两倍多。然而,挑战依然存在:多模态(音频加视觉)输入和角色扮演语音模仿任务对当前模型来说很困难,并且在鲁棒性和安全对齐方面仍然存在显著差距。VoiceAssistant-Eval 识别了这些差距,并为评估和指导下一代 AI 助手的发展建立了严格的框架。代码和数据将在 https://mathllm.github.io/VoiceAssistantEval/ 发布。
查看 arXiv 页面查看 PDF

评论

WangKeWangKe
论文作者
论文提交者

代码在 https://github.com/mathllm/VoiceAssistant-Eval