大型音视语言模型综合评估展望:一项全面综述

发表
Chih-Kai YangChih-Kai Yang 提交
作者: Chih-Kai YangChih-Kai Yang, Neo S. Ho, Hung-yi LeeHung-yi Lee

摘要

随着大型音频语言模型 (LALM) 的进步,这些模型通过增强大型语言模型 (LLM) 的听觉能力,预计将在各种听觉任务中展现出普遍的能力。虽然已经出现了许多基准来评估 LALM 的性能,但它们仍然是零散的,并且缺乏结构化的分类。为了弥合这一差距,我们进行了全面的调查,并提出了一个系统性的 LALM 评估分类法,根据其目标将其分为四个维度:(1)通用听觉意识和处理,(2)知识和推理,(3)对话能力,以及(4)公平性、安全性和可信赖性。我们提供了每个类别的详细概述,并强调了该领域的挑战,为未来有希望的方向提供了见解。据我们所知,这是第一份专门针对 LALM 评估的调查,为社区提供了清晰的指导。我们将发布调查论文集并积极维护,以支持该领域正在进行的进展。
查看 arXiv 页面查看 PDF

评论

Chih-Kai YangChih-Kai Yang
论文作者
论文提交者

这项工作调查了评估大型音频-语言模型在各个方面表现的研究。项目页面:https://github.com/ckyang1124/LALM-Evaluation-Survey