⏶23

C3：一个用于探索复杂对话中挑战的双语口语对话模型基准

07月30日发表

08月01日由 Wei Tao 提交

作者: Chengqian Ma, Wei Tao Wei Tao, Yiwen Guo

摘要

口语对话模型（SDMs）最近因其能直接对用户的口语查询生成语音响应而备受关注。尽管它们日益普及，但在全面理解其在领会和模拟人类对话方面的实际效果上，仍存在研究空白。与得益于广泛基准测试、基于文本的大型语言模型（LLMs）相比，这一点尤其明显。由于口语对话所特有的特征，人类语音交互在本质上更为复杂。歧义性是其中一个挑战，它既源于像一词多义这样的语义因素，也源于像同音异形词、同形异音词和重音模式等语音学方面的问题。此外，像省略、共指和多轮交互等上下文依赖性，也为人类对话的动态增添了更多复杂性。为了阐明口语对话模型的发展现状并应对这些挑战，我们在本文中提出了一个基准数据集，其中包含 1079 个中英文实例。该数据集配有一种与人类判断高度一致、基于LLM的评估方法，有助于全面探索SDMs在应对这些实际挑战时的性能。

查看 arXiv 页面查看 PDF

Wei Tao

论文作者

论文提交者

🌍 双语覆盖：对英语和中文进行全面评估。

🎯 真实世界复杂性：基于对实际口语对话的实证分析，涵盖1,079个实例和1,586个音频-文本配对样本。

💪 基于LLM的自动评估：使用GPT-4o和DeepSeek-R1，评估结果与人类判断的相关性超过0.87，评估可靠。

🎵 端到端关注：专门为端到端口语对话模型设计，并考虑了关键的语音特征。

📊 具有挑战性的基准（2025年7月）：对10个领先的SDM进行全面评估，揭示了该基准的难度。最高得分仅为40.08%（中文）和55.68%（英文）。

Chengqian Ma

论文作者

📣 C3 基准测试：双语语音对话模型的挑战性基准！

🎙️ C3 是首个旨在测试语音对话中复杂现象的基准数据集，涵盖了停顿、同音异义词、重音、语调、句法歧义、指代、省略和多轮对话。

📊 它包含 1,079 个真实世界场景和 1,586 对音频-文本对，使得语音对话模型难以跟上其挑战！

🔥 挑战示例：

“他看到了那个戴眼镜的男人” 与 “他看到了 / 那个戴眼镜的男人”：是“他”戴眼镜还是那个男人戴眼镜？
“史密斯先生爱音乐胜过爱他的妻子”：这是指“史密斯先生爱音乐胜过他爱他的妻子”还是“史密斯先生爱音乐胜过他妻子爱音乐”？
“琼确保感谢苏珊所获得的所有帮助”：“她”是指琼还是苏珊？

📈 评估结果（截至 2025 年 7 月 30 日）：

中文最佳模型：Qwen2.5-Omni (40.08%)
英文最佳模型：GPT-4o-Audio-Preview (55.68%)

🔗 立即体验 C3：

> 🔥 限时优惠！ 我们可以免费为您在我们的基准上运行 SDM 的评估脚本，此优惠截至 2025 年 9 月 1 日。之后，您可以独立运行评估。如需参与，请发送电子邮件至 chengqianma@yeah.net，主题为：[C3Bench Evaluation] - [Model_Name]

C3：一个用于探索复杂对话中挑战的双语口语对话模型基准

摘要

评论