⏶14

音频感知大语言模型作为语音风格评判者

06月06日发表

06月09日由 Cheng-Han Chiang 提交

作者: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

摘要

音频感知大型语言模型（ALLMs）能够理解音频输入中的文本和非文本信息。在本文中，我们探索使用 ALLMs 作为自动评判者来评估语音的说话风格。我们使用 ALLM 评判者来评估 SLM 在两项任务中生成的语音：语音风格指令遵循和角色扮演。我们考虑的说话风格包括情感、音量、语速、词语重音、音高控制以及非语言元素。我们使用四种口语语言模型（SLMs）来完成这两项任务，并使用人类和 ALLMs 来评估 SLM 的回应。我们将 GPT-4o-audio 和 Gemini-2.5-pro 这两种 ALLM 评判者与人类评估结果进行比较，结果表明 Gemini 与人类评判者之间的一致性与人类评估者之间的一致性相当。这些有前景的结果表明 ALLMs 可以用作评估 SLM 的评判者。我们的结果还揭示，当前的 SLMs，即使是 GPT-4o-audio，在控制说话风格和生成自然对话方面仍有改进空间。

查看 arXiv 页面查看 PDF

Cheng-Han Chiang

论文作者

论文提交者

在本文中，我们展示了音频感知语言模型（ALLMs）可以作为口语风格的自动评估者。具体来说，我们比较了两个ALLM评估者，GPT-4o-audio和Gemini-2.5-pro，与人类评估结果，并表明Gemini与人类评估者之间的一致性与人类评估者之间的一致性相当。用于评估的数据集将很快共享。

Alvyn

除了评估模型之外，本文的用例会是什么？

Cheng-Han Chiang

论文作者

论文提交者

也许我们可以使用这些ALLM作为奖励模型，并使用强化学习来微调SLM。

音频感知大语言模型作为语音风格评判者

摘要

评论