C3:一个用于探索复杂对话中挑战的双语口语对话模型基准

发表
Wei TaoWei Tao 提交
作者: Chengqian MaChengqian Ma, Wei TaoWei Tao, Yiwen Guo

摘要

口语对话模型(SDMs)最近因其能直接对用户的口语查询生成语音响应而备受关注。尽管它们日益普及,但在全面理解其在领会和模拟人类对话方面的实际效果上,仍存在研究空白。与得益于广泛基准测试、基于文本的大型语言模型(LLMs)相比,这一点尤其明显。由于口语对话所特有的特征,人类语音交互在本质上更为复杂。歧义性是其中一个挑战,它既源于像一词多义这样的语义因素,也源于像同音异形词、同形异音词和重音模式等语音学方面的问题。此外,像省略、共指和多轮交互等上下文依赖性,也为人类对话的动态增添了更多复杂性。为了阐明口语对话模型的发展现状并应对这些挑战,我们在本文中提出了一个基准数据集,其中包含 1079 个中英文实例。该数据集配有一种与人类判断高度一致、基于LLM的评估方法,有助于全面探索SDMs在应对这些实际挑战时的性能。
查看 arXiv 页面查看 PDF

评论

Wei TaoWei Tao
论文作者
论文提交者

🌍 双语覆盖:对英语和中文进行全面评估。

🎯 真实世界复杂性:基于对实际口语对话的实证分析,涵盖1,079个实例和1,586个音频-文本配对样本。

💪 基于LLM的自动评估:使用GPT-4o和DeepSeek-R1,评估结果与人类判断的相关性超过0.87,评估可靠。

🎵 端到端关注:专门为端到端口语对话模型设计,并考虑了关键的语音特征。

📊 具有挑战性的基准(2025年7月):对10个领先的SDM进行全面评估,揭示了该基准的难度。最高得分仅为40.08%(中文)和55.68%(英文)。

CCC_example.png

Chengqian MaChengqian Ma
论文作者

📣 C3 基准测试:双语语音对话模型的挑战性基准!

🎙️ C3 是首个旨在测试语音对话中复杂现象的基准数据集,涵盖了停顿、同音异义词、重音、语调、句法歧义、指代、省略和多轮对话

📊 它包含 1,079 个真实世界场景1,586 对音频-文本对,使得语音对话模型难以跟上其挑战!

🔥 挑战示例

  • “他看到了那个戴眼镜的男人” 与 “他看到了 / 那个戴眼镜的男人”:是“他”戴眼镜还是那个男人戴眼镜?

  • “史密斯先生爱音乐胜过爱他的妻子”:这是指“史密斯先生爱音乐胜过他爱他的妻子”还是“史密斯先生爱音乐胜过他妻子爱音乐”?

  • “琼确保感谢苏珊所获得的所有帮助”:“她”是指琼还是苏珊?

📈 评估结果(截至 2025 年 7 月 30 日):

combined_image.jpg

  • 中文最佳模型:Qwen2.5-Omni (40.08%)

  • 英文最佳模型:GPT-4o-Audio-Preview (55.68%)

🔗 立即体验 C3

> 🔥 限时优惠! 我们可以免费为您在我们的基准上运行 SDM 的评估脚本,此优惠截至 2025 年 9 月 1 日。之后,您可以独立运行评估。如需参与,请发送电子邮件至 chengqianma@yeah.net,主题为:[C3Bench Evaluation] - [Model_Name]