WavReward:使用通用奖励评估器的语音对话模型

发表
jishengpengjishengpeng 提交
作者: jishengpengShengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

摘要

例如 GPT-4o-audio 这样的端到端语音对话模型,最近在语音领域引起了广泛关注。然而,对语音对话模型会话性能的评估在很大程度上被忽视了。这主要是因为智能聊天机器人传达了大量非文本信息,而这些信息无法使用像 ChatGPT 这样的基于文本的语言模型轻松衡量。为了弥补这一空白,我们提出了 WavReward,这是一个基于音频语言模型的奖励反馈模型,可以评估具有语音输入的语音对话系统的智商(IQ)和情商(EQ)。具体来说,1)基于音频语言模型,WavReward 集成了深度推理过程和非线性奖励机制用于后续训练。通过强化学习算法利用多样本反馈,我们构建了一个专门适用于语音对话模型的评估器。2)我们引入了 ChatReward-30K,这是一个用于训练 WavReward 的偏好数据集。ChatReward-30K 包含语音对话模型的理解和生成两个方面。这些场景涵盖了各种任务,例如基于文本的聊天、指令聊天的九个声学属性以及隐式聊天。在多个语音对话场景中,WavReward 优于先前的最先进评估模型,相较于 Qwen2.5-Omni,在客观准确性方面实现了显著提升,从 55.1% 提高到 91.5%。在主观 A/B 测试中,WavReward 也以 83% 的领先优势脱颖而出。全面的消融研究证实了 WavReward 每个组成部分的必要性。论文接收后,所有数据和代码将公开在 https://github.com/jishengpeng/WavReward
查看 arXiv 页面查看 PDF

评论

jishengpengjishengpeng
论文作者
论文提交者

语音领域的第一个奖励模型。

YAN13102YAN13102

太棒了!