⏶8
推理能力的语音评估:诊断模态引起的性能差距
发表
由
Yueqian Lin 提交

作者:
Yueqian Lin, Zhengmian Hu, Qinsi Wang, Yudong Liu, Hengfan Zhang, Jayakumar Subramanian, Nikos Vlassis, Hai Helen Li, Yiran Chen

摘要
AI 生成总结
VERA 是一个用于评估语音交互系统中推理能力的基准,揭示了与文本模型相比显著的性能差距,并强调了实时交互中的挑战。我们提出了语音推理能力评估(VERA)基准,用于评估语音交互系统在实时对话约束下的推理能力。VERA 包含 2,931 个语音原生剧集,源自成熟的文本基准,并分为五个类别(数学、网络、科学、长上下文、事实)。每个项目都针对语音交互进行了调整,同时保留了推理难度。VERA 能够直接在模型系列内进行文本-语音比较,并支持分析架构选择如何影响可靠性。我们评估了 12 个当代语音系统以及强大的文本基准,并观察到明显的、一致的模态差距:在竞赛数学方面,领先的文本模型准确率为 74.8%,而其语音对应模型仅为 6.1%;在所有类别中宏观平均来看,最佳文本模型的准确率为 54.0%,而语音模型为 11.3%。延迟-准确率分析显示低延迟平台,快速语音系统聚集在约 10% 的准确率周围,而接近文本性能需要牺牲实时交互。诊断实验表明,常见的缓解措施不足。增加“思考时间”带来的收益微乎其微;分离推理和叙述的解耦级联提高了准确性,但仍远低于文本,并引入了特征性的基础/一致性错误。失败分析进一步显示,原生流式、端到端和级联设计在错误签名方面存在差异。VERA 为解耦思考与说话的架构提供了可重现的测试平台和有针对性的诊断,提供了一种原则性的方法来衡量朝着既流畅又可靠推理的实时语音助手迈进的进展。
VERA 对语音系统中的推理进行基准测试:跨 5 个轨道,包含 2,931 个语音原生剧集。它暴露了一个巨大的语音推理差距(文本 ≈54% vs 语音 ≈11%)以及一个接近 10% 准确率的约 1.5 秒“实时平台”。