⏶9
AHELM:音频-语言模型的整体评估
发表
由
taesiri 提交

作者: Tony Lee,
Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou,
Cihang Xie, Percy Liang

摘要
音频-语言模型 (ALMs)——即以交错的音频和文本作为输入并输出文本的多模态模型——的评估受到了标准化基准测试的缺乏的阻碍;大多数基准测试仅衡量一到两个能力,并忽略了诸如公平性或安全性等评估方面。此外,由于单独的评估测试的模型数量有限,并且使用不同的提示方法和推理参数,因此模型之间的比较变得困难。为了解决这些不足,我们引入了 AHELM,一个汇集了各种数据集的基准测试——包括两个新的合成音频-文本数据集 PARADE,它评估 ALMs 避免刻板印象的能力,以及 CoRe-Bench,它通过推理多轮问答来衡量对对话音频的推理——以全面衡量 ALMs 在我们确定的对 ALMs 的开发和使用至关重要的 10 个方面的性能:音频感知、知识、推理、情绪检测、偏差、公平性、多语言能力、鲁棒性、毒性和安全性。我们还标准化了提示、推理参数和评估指标,以确保模型之间公平的比较。我们测试了来自 3 个开发商的 14 个开源和闭源 API ALMs,以及 3 个额外的简单基线系统,每个系统都包含一个自动语音识别器和一个语言模型。我们的结果表明,虽然 Gemini 2.5 Pro 在 10 个方面中的 5 个方面排名第一,但它在 ASR 任务上表现出群体不公平(p=0.01),而大多数其他模型则不会。我们还发现,基线系统在 AHELM 上的表现相当不错,其中一个尽管只有语音到文本的能力,但在总体排名中位列第五。为了透明起见,所有原始提示、模型生成和输出均可在我们的网站 https://crfm.stanford.edu/helm/audio/v1.0.0 上找到。AHELM 旨在成为一个动态更新的基准测试,并将随着时间的推移添加新的数据集和模型。
评论

论文作者
有用链接:
排行榜:https://crfm.stanford.edu/helm/audio/latest/
代码库:https://github.com/stanford-crfm/helm
[新增] PARADE 数据:https://huggingface.co/datasets/UCSC-VLAA/PARADE_audio
[新增] CoRe-Bench 数据:https://huggingface.co/datasets/stanford-crfm/CoReBench_v1
AHELM 为音频-语言模型提供了一个标准化的、全面的评估基准,引入了 PARADE 和 CoRe-Bench 来衡量 10 个方面,并实现公平、可比较的评估。