音频感知大语言模型作为语音风格评判者

发表
Cheng-Han ChiangCheng-Han Chiang 提交
作者: Cheng-Han ChiangCheng-Han Chiang, Xiaofei WangXiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

摘要

音频感知大型语言模型(ALLMs)能够理解音频输入中的文本和非文本信息。在本文中,我们探索使用 ALLMs 作为自动评判者来评估语音的说话风格。我们使用 ALLM 评判者来评估 SLM 在两项任务中生成的语音:语音风格指令遵循和角色扮演。我们考虑的说话风格包括情感、音量、语速、词语重音、音高控制以及非语言元素。我们使用四种口语语言模型(SLMs)来完成这两项任务,并使用人类和 ALLMs 来评估 SLM 的回应。我们将 GPT-4o-audio 和 Gemini-2.5-pro 这两种 ALLM 评判者与人类评估结果进行比较,结果表明 Gemini 与人类评判者之间的一致性与人类评估者之间的一致性相当。这些有前景的结果表明 ALLMs 可以用作评估 SLM 的评判者。我们的结果还揭示,当前的 SLMs,即使是 GPT-4o-audio,在控制说话风格和生成自然对话方面仍有改进空间。
查看 arXiv 页面查看 PDF

评论

Cheng-Han ChiangCheng-Han Chiang
论文作者
论文提交者

在本文中,我们展示了音频感知语言模型(ALLMs)可以作为口语风格的自动评估者。具体来说,我们比较了两个ALLM评估者,GPT-4o-audio和Gemini-2.5-pro,与人类评估结果,并表明Gemini与人类评估者之间的一致性与人类评估者之间的一致性相当。用于评估的数据集将很快共享。

image.png

AlvynAlvyn

除了评估模型之外,本文的用例会是什么?

Cheng-Han ChiangCheng-Han Chiang
论文作者
论文提交者

也许我们可以使用这些ALLM作为奖励模型,并使用强化学习来微调SLM。