AudioTrust:评估音频大型语言模型的多方面可信度

发表
Kai LiKai Li 提交
作者: Kai Li, Can Shen, Yile Liu, Jirui Han, Kelong Zheng, Xuechao Zou, Zhe Wang, Xingjian Du, Shun Zhang, Hanjun Luo, Yingbin Jin, Xinxin Xing, Ziyang Ma, Yue Liu, jiaxiaojunQAQXiaojun Jia, Yifan Zhang, Junfeng Fang, Kun Wang, Yibo Yan, Haoyang Li, Yiming Li, xiaobin zhuangXiaobin Zhuang, Yang Liu, Haibo Hu, Zhuo Chen, Zhizheng Wu, Xiaolin Hu, Eng-Siong Chng, XiaoFeng Wang, Wenyuan Xu, Wei Dong, Xinfeng Li

摘要

音频大型语言模型 (ALLM) 的快速发展和应用扩展,要求我们对其可信度有深入的理解。然而,针对这些模型的系统性评估研究,特别是涉及音频模态特有风险的研究,在很大程度上仍未被探索。现有的评估框架主要关注文本模态,或仅涉及有限的安全维度,未能充分考虑音频模态固有的独特特性和应用场景。为此,我们引入了 AudioTrust——首个专门为 ALLM 设计的多维度可信度评估框架与基准。AudioTrust 支持在六个关键维度上的评估:公平性、幻觉、安全性、隐私性、鲁棒性和真实性。为了全面评估这些维度,AudioTrust 围绕 18 个不同的实验设置进行构建。其核心是一个精心构建的、包含超过 4,420 个音频/文本样本的数据集,这些样本来源于真实世界场景(如日常对话、紧急呼叫、语音助手交互),专门设计用于探究 ALLM 的多维度可信度。在评估方面,该基准精心设计了 9 个音频特有的评估指标,并且我们采用大规模自动化流程对模型输出进行客观且可扩展的评分。实验结果揭示了当前最先进的开源和闭源 ALLM 在面临各种高风险音频场景时的可信度边界和局限性,为未来音频模型的安全可靠部署提供了宝贵见解。我们的平台和基准可在 https://github.com/JusperLee/AudioTrust 获取。
查看 arXiv 页面查看 PDF

评论

Kai LiKai Li
论文提交者

AudioTrust 是一个针对音频大型语言模型(ALLMs)的综合性可信度评估框架,能够有效地揭示音频大型模型在公平性、幻觉、安全性、隐私性、鲁棒性和认证性这六个维度上的潜在风险。它汇集了超过 4,420 个真实世界的音频/文本数据样本,涵盖了日常对话、紧急呼叫、语音助手等 18 种实验设置,并设计了 9 个音频专属的评估指标,构建了一个自动化评估流程。主要发现包括:闭源模型在鲁棒性和安全性防护方面表现更好,而开源模型在隐私性和公平性方面仍存在盲点;大多数 ALLMs 在性别、口音和年龄等敏感属性上表现出系统性偏差。希望研究人员能够基于 AudioTrust 持续优化音频大型模型,共同促进更安全、更值得信赖的 AI 音频生态系统!

📄 论文:https://arxiv.org/pdf/2505.16211

💻 代码:https://github.com/JusperLee/AudioTrust

🤗 数据:https://huggingface.co/datasets/JusperLee/AudioTrust