⏶5
BLEUBERI: BLEU 是一个令人惊讶地有效的指令遵循奖励
发表
由
Yapei Chang 提交

作者:
Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, Mohit Iyyer

摘要
奖励模型对于将 LLM 与人类偏好对齐至关重要,但训练成本高昂,需要大规模人工标注的偏好数据和强大的预训练 LLM 主干模型。与此同时,随着高质量合成指令遵循数据集的日益普及,这引发了一个问题:在基于强化学习 (RL) 的对齐过程中,更简单的、基于参考的指标能否作为奖励模型的有效替代方案?在本文中,我们首先展示,作为一个基本的字符串匹配指标,BLEU 在通用指令遵循数据集上与人类偏好的一致性方面,令人惊讶地与强大的奖励模型相匹配。基于这一洞察,我们开发了一种名为 BLEUBERI 的方法,该方法首先识别具有挑战性的指令,然后直接使用 BLEU 作为奖励函数应用 Group Relative Policy Optimization (GRPO)。我们展示,经 BLEUBERI 训练的模型在四个具有挑战性的指令遵循基准和三种不同的基础语言模型上,媲美通过奖励模型引导的 RL 训练的模型。一项人工评估进一步支持,BLEUBERI 模型输出的质量与奖励模型对齐的模型相当。此外,BLEUBERI 模型生成的输出比竞争方法更具有事实依据。总的来说,我们展示,在能够获得高质量参考输出(通过现有的指令遵循数据集或合成数据生成容易获得)的情况下,基于字符串匹配的指标可以作为对齐过程中奖励模型的廉价而有效的替代。我们在 https://github.com/lilakk/BLEUBERI 发布了我们的代码和数据。
代码: https://github.com/lilakk/BLEUBERI (即将更新)