使用 GRPO 提升语音感知语言模型中的语音理解能力

发表
Avishai ElmakiesAvishai Elmakies 提交
作者: Avishai ElmakiesAvishai Elmakies, Hagai AronowitzHagai Aronowitz, Nimrod ShabtayNimrod Shabtay, Eli Schwartz, Ron HooryRon Hoory, Avihu DekelAvihu Dekel

摘要

AI 生成总结
一种基于 Group Relative Policy Optimization (GRPO) 的方法,使用 BLEU 作为奖励信号,在开放式语音理解任务(如口语问答和自动语音翻译)上优于标准的 SFT。
本文介绍了一种基于群组相对策略优化(GRPO)的方法,用于在开放格式语音理解任务(如口语问答和自动语音翻译)上训练语音感知大型语言模型(SALLM)。SALLM在语音理解任务上被证明非常有效。GRPO因其在训练LLM方面的效率而最近受到关注,并且先前的工作探索了其在SALLM上的应用,主要是在多项选择任务中。在此基础上,我们专注于更好地反映模型生成能力的开放格式任务。我们的方法利用GRPO和BLEU作为奖励信号来优化SALLM,我们通过实证表明,它在几个关键指标上优于标准的SFT。最后,我们探索了在GRPO中为这些任务纳入离策略样本的潜力,为进一步的改进和研究指明了方向。
查看 arXiv 页面查看 PDF

评论

Avishai ElmakiesAvishai Elmakies
论文作者
论文提交者

本文提出了一种简单但有效的基于 GRPO 的方法,用于改进语音感知大型语言模型中的语音理解任务。结果非常令人鼓舞,性能优于监督微调 (SFT)。
它还研究了在这些相同任务的 GRPO 设置中包含离策略样本的效果,显示了混合策略 GRPO 的前景,但也需要进一步的研究和方法的完善。