迈向评估性思维:伴随演化奖励模型的元策略优化

发表
Young-Jun LeeYoung-Jun Lee 提交
作者: Zae Myung KimZae Myung Kim, Chanwoo Park, Vipul RahejaVipul Raheja, Dongyeop KangDongyeop Kang

摘要

基于奖励的大型语言模型(LLM)对齐方法面临两个关键局限性:一是易受奖励攻击(reward hacking)的影响,即模型利用奖励信号的缺陷;二是当 LLM 用作奖励模型时,过度依赖脆弱且耗时耗力的提示工程(prompt engineering)。我们引入了元策略优化(Meta Policy Optimization, MPO),这是一个通过集成元奖励模型来解决这些挑战的框架,该模型在整个训练过程中动态优化奖励模型的提示。在 MPO 中,元奖励模型监控不断变化的训练上下文,并持续调整奖励模型的提示,以保持高对齐度,从而提供一种自适应的奖励信号,抵抗策略的利用。这种元学习(meta-learning)方法促进了更稳定的策略优化,并极大地减少了手动设计奖励提示的需求。其性能与通过大量人工精心设计的奖励提示指导的模型相当或更优。此外,我们表明 MPO 在问答和数学推理等不同任务中都能保持其有效性,无需专门的奖励设计。除了标准的 RLAIF,MPO 的元学习表述也易于扩展到更高级别的对齐框架。总体而言,这种方法解决了基于奖励的 LLM RL 对齐中的理论和实践挑战,为更鲁棒和自适应的对齐策略铺平了道路。代码和模型将公开共享。
查看 arXiv 页面查看 PDF
迈向评估性思维:伴随演化奖励模型的元策略优化
迈向评估性思维:伴随演化奖励模型的元策略优化

评论

Young-Jun LeeYoung-Jun Lee
论文提交者

我认为当前的 RLAIF 训练流程,例如那些基于 PPO 或 GRPO 的,相对来说很原始,因为它们未能考虑到奖励建模过程中不断变化的训练上下文。本文介绍了一种简单而有效的元级奖励机制,它可以集成到现有的 PPO 框架中,显著提高了性能,同时减少了对提示工程的依赖并减轻了奖励作弊。

Byung-Kwan LeeByung-Kwan Lee

我想知道在奖励模型已经是超过1T大小的资深模型的情况下,元模型是否还有必要?

Zae Myung KimZae Myung Kim
论文作者

即使是万亿参数的奖励模型(RM),如果其评估标准保持不变,也可能被利用。在我们的实验中,一个基于72B Qwen的RM持续地给一些退化的回复(例如“Title: The Myth of Reddit’s Inherent Badness …”—一个明显与任务不符的单行回复)打出了满分(5/5)。像PPO这样的强化学习算法在发现和利用这些漏洞方面非常有效,如果RM不调整其评估标准,训练可能会收敛到一个有缺陷的策略。当然,引入元奖励模型(MRM)的另一个关键优势是它可以自动化评估标准的细化。这意味着您无需为您的1T RM精心设计评估提示。希望这回答了您的问题!

Byung-Kwan LeeByung-Kwan Lee

谢谢您的友好回复。那么最后一个问题是,拥有优秀提示工程的 1T 奖励模型,对比拥有元模型但没有精心设计的提示工程的适中大小的奖励模型,哪一个会更有优势?

Zae Myung KimZae Myung Kim
论文作者

这是一个很好的问题。假设我们有一些领域专家,他们为议论文写作精心设计了一个高度详细的评估标准,涵盖了所有已知的好议论文评判标准。即使有了这样的专家输入,强化学习策略仍然可以找到意想不到的方式来利用奖励模型的缺陷——例如,生成流畅的另一种语言的议论文,这可能仍然会获得高分。这揭示了一个更深层次的挑战:评估提示词也必须预测并惩罚失败案例,而这些“扣分标准”往往是事先无法预知的,因为它们取决于特定的策略模型、强化学习动态的随机性,以及即使是最大的奖励模型中存在的盲点。

如果你已经进行了大量的强化学习训练,找出了所有的漏洞,并相应地修补了你的评估标准,那么你实际上就拥有了一个“神谕提示词”。在这种情况下,MPO 可能就没有必要了——因为你已经手动完成了 MPO 自动完成的事情。第 3.5 节中的表 4 探讨了这种情况:使用 72B 奖励模型和神谕提示词的 PPO 模型表现优于 MPO,但当使用 32B 奖励模型时,MPO 仍然优于相同的设置。

总之:如果“优秀的提示工程”指的是专家编写的评估标准,那么 MPO 通过动态适应新出现的失败情况仍然具有优势。如果你已经拥有一个真正的神谕提示词,那么就不需要 MPO 了——但构建这样一个提示词的成本远高于简单地运行一个 MPO 训练循环。我们目前正在努力添加更多的基线来阐明这些情况。

谢谢你的提问!

Byung-Kwan LeeByung-Kwan Lee

是的,优秀的提示词就是指专家编写的评估标准。再次感谢您友好而迅速的回复。非常感谢您的出色工作。