⏶17
使用 GRPO 提升语音感知语言模型中的语音理解能力
发表
由
Avishai Elmakies 提交
作者:
Avishai Elmakies,
Hagai Aronowitz,
Nimrod Shabtay, Eli Schwartz,
Ron Hoory,
Avihu Dekel

摘要
AI 生成总结
一种基于 Group Relative Policy Optimization (GRPO) 的方法,使用 BLEU 作为奖励信号,在开放式语音理解任务(如口语问答和自动语音翻译)上优于标准的 SFT。本文介绍了一种基于群组相对策略优化(GRPO)的方法,用于在开放格式语音理解任务(如口语问答和自动语音翻译)上训练语音感知大型语言模型(SALLM)。SALLM在语音理解任务上被证明非常有效。GRPO因其在训练LLM方面的效率而最近受到关注,并且先前的工作探索了其在SALLM上的应用,主要是在多项选择任务中。在此基础上,我们专注于更好地反映模型生成能力的开放格式任务。我们的方法利用GRPO和BLEU作为奖励信号来优化SALLM,我们通过实证表明,它在几个关键指标上优于标准的SFT。最后,我们探索了在GRPO中为这些任务纳入离策略样本的潜力,为进一步的改进和研究指明了方向。
本文提出了一种简单但有效的基于 GRPO 的方法,用于改进语音感知大型语言模型中的语音理解任务。结果非常令人鼓舞,性能优于监督微调 (SFT)。
它还研究了在这些相同任务的 GRPO 设置中包含离策略样本的效果,显示了混合策略 GRPO 的前景,但也需要进一步的研究和方法的完善。