⏶23
C3:一个用于探索复杂对话中挑战的双语口语对话模型基准
发表
由
Wei Tao 提交
作者:
Chengqian Ma,
Wei Tao, Yiwen Guo

摘要
口语对话模型(SDMs)最近因其能直接对用户的口语查询生成语音响应而备受关注。尽管它们日益普及,但在全面理解其在领会和模拟人类对话方面的实际效果上,仍存在研究空白。与得益于广泛基准测试、基于文本的大型语言模型(LLMs)相比,这一点尤其明显。由于口语对话所特有的特征,人类语音交互在本质上更为复杂。歧义性是其中一个挑战,它既源于像一词多义这样的语义因素,也源于像同音异形词、同形异音词和重音模式等语音学方面的问题。此外,像省略、共指和多轮交互等上下文依赖性,也为人类对话的动态增添了更多复杂性。为了阐明口语对话模型的发展现状并应对这些挑战,我们在本文中提出了一个基准数据集,其中包含 1079 个中英文实例。该数据集配有一种与人类判断高度一致、基于LLM的评估方法,有助于全面探索SDMs在应对这些实际挑战时的性能。
评论

论文作者
📣 C3 基准测试:双语语音对话模型的挑战性基准!
🎙️ C3 是首个旨在测试语音对话中复杂现象的基准数据集,涵盖了停顿、同音异义词、重音、语调、句法歧义、指代、省略和多轮对话。
📊 它包含 1,079 个真实世界场景和 1,586 对音频-文本对,使得语音对话模型难以跟上其挑战!
🔥 挑战示例:
“他看到了那个戴眼镜的男人” 与 “他看到了 / 那个戴眼镜的男人”:是“他”戴眼镜还是那个男人戴眼镜?
“史密斯先生爱音乐胜过爱他的妻子”:这是指“史密斯先生爱音乐胜过他爱他的妻子”还是“史密斯先生爱音乐胜过他妻子爱音乐”?
“琼确保感谢苏珊所获得的所有帮助”:“她”是指琼还是苏珊?
📈 评估结果(截至 2025 年 7 月 30 日):
中文最佳模型:Qwen2.5-Omni (40.08%)
英文最佳模型:GPT-4o-Audio-Preview (55.68%)
🔗 立即体验 C3:
> 🔥 限时优惠! 我们可以免费为您在我们的基准上运行 SDM 的评估脚本,此优惠截至 2025 年 9 月 1 日。之后,您可以独立运行评估。如需参与,请发送电子邮件至 chengqianma@yeah.net
,主题为:[C3Bench Evaluation] - [Model_Name]
🌍 双语覆盖:对英语和中文进行全面评估。
🎯 真实世界复杂性:基于对实际口语对话的实证分析,涵盖1,079个实例和1,586个音频-文本配对样本。
💪 基于LLM的自动评估:使用GPT-4o和DeepSeek-R1,评估结果与人类判断的相关性超过0.87,评估可靠。
🎵 端到端关注:专门为端到端口语对话模型设计,并考虑了关键的语音特征。
📊 具有挑战性的基准(2025年7月):对10个领先的SDM进行全面评估,揭示了该基准的难度。最高得分仅为40.08%(中文)和55.68%(英文)。