⏶13
自由形式生成中开放式R1训练的语义感知奖励
发表
由
Xiyang Wu 提交
作者: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber
摘要
评估开放式长文本生成具有挑战性,因为很难清晰地界定好坏输出。现有方法通常会遗漏连贯性、风格或相关性等关键方面,或者受到预训练数据的偏向,使得开放式长文本评估成为一个尚未充分探索的问题。为了弥补这一空白,我们提出了PrefBERT,一个用于在GRPO中评估开放式长文本生成,并通过对好坏输出提供不同奖励来指导其训练的评分模型。PrefBERT在两个包含多样化长文本风格和Likert评分质量的响应评估数据集上进行训练,通过提供比传统度量(ROUGE-L和BERTScore)更好的语义奖励反馈,有效地支持了GRPO。通过包括LLM-as-a-judge、人工评分和定性分析在内的全面评估,我们表明PrefBERT在多句和段落长度响应上进行训练后,在各种长篇段落中仍保持可靠性,并与GRPO所需的可验证奖励良好对齐。人工评估证实,使用PrefBERT作为奖励信号来训练策略模型,所产生的响应比使用传统度量训练的响应更符合人类偏好。我们的代码可在https://github.com/zli12321/long_form_rl获取。
评估开放式长篇生成是具有挑战性的,因为很难明确定义什么将好的输出与坏的输出区分开来。现有方法经常忽略连贯性、风格或相关性等关键方面,或者受到预训练数据的偏差影响,这使得开放式长篇评估成为一个尚未充分探索的问题。为了解决这一差距,我们提出了PrefBERT,一个评分模型,用于评估GRPO中的开放式长篇生成,并利用针对好坏输出的不同奖励来指导其训练。PrefBERT在两个具有不同长篇风格和李克特评级质量的响应评估数据集上进行训练,通过提供比传统指标ROUGE-L和BERTScore更好的语义奖励反馈,有效地支持了GRPO。通过包括LLM作为评判者、人工评分和定性分析在内的全面评估,我们表明,在多句和段落长度响应上训练的PrefBERT在各种长篇段落中保持可靠性,并且与GRPO所需的可验证奖励高度吻合。人工评估证实,使用PrefBERT作为奖励信号来训练策略模型,所产生的响应比使用传统指标训练的模型更符合人类偏好。我们的代码可在 https://github.com/zli12321/long_form_rl 获取。