⏶14
音频感知大语言模型作为语音风格评判者
发表
由
Cheng-Han Chiang 提交
作者:
Cheng-Han Chiang,
Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
摘要
音频感知大型语言模型(ALLMs)能够理解音频输入中的文本和非文本信息。在本文中,我们探索使用 ALLMs 作为自动评判者来评估语音的说话风格。我们使用 ALLM 评判者来评估 SLM 在两项任务中生成的语音:语音风格指令遵循和角色扮演。我们考虑的说话风格包括情感、音量、语速、词语重音、音高控制以及非语言元素。我们使用四种口语语言模型(SLMs)来完成这两项任务,并使用人类和 ALLMs 来评估 SLM 的回应。我们将 GPT-4o-audio 和 Gemini-2.5-pro 这两种 ALLM 评判者与人类评估结果进行比较,结果表明 Gemini 与人类评判者之间的一致性与人类评估者之间的一致性相当。这些有前景的结果表明 ALLMs 可以用作评估 SLM 的评判者。我们的结果还揭示,当前的 SLMs,即使是 GPT-4o-audio,在控制说话风格和生成自然对话方面仍有改进空间。
在本文中,我们展示了音频感知语言模型(ALLMs)可以作为口语风格的自动评估者。具体来说,我们比较了两个ALLM评估者,GPT-4o-audio和Gemini-2.5-pro,与人类评估结果,并表明Gemini与人类评估者之间的一致性与人类评估者之间的一致性相当。用于评估的数据集将很快共享。