⏶34

迈向评估性思维：伴随演化奖励模型的元策略优化

04月28日发表

04月30日由 Young-Jun Lee 提交

作者: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang

摘要

基于奖励的大型语言模型（LLM）对齐方法面临两个关键局限性：一是易受奖励攻击（reward hacking）的影响，即模型利用奖励信号的缺陷；二是当 LLM 用作奖励模型时，过度依赖脆弱且耗时耗力的提示工程（prompt engineering）。我们引入了元策略优化（Meta Policy Optimization, MPO），这是一个通过集成元奖励模型来解决这些挑战的框架，该模型在整个训练过程中动态优化奖励模型的提示。在 MPO 中，元奖励模型监控不断变化的训练上下文，并持续调整奖励模型的提示，以保持高对齐度，从而提供一种自适应的奖励信号，抵抗策略的利用。这种元学习（meta-learning）方法促进了更稳定的策略优化，并极大地减少了手动设计奖励提示的需求。其性能与通过大量人工精心设计的奖励提示指导的模型相当或更优。此外，我们表明 MPO 在问答和数学推理等不同任务中都能保持其有效性，无需专门的奖励设计。除了标准的 RLAIF，MPO 的元学习表述也易于扩展到更高级别的对齐框架。总体而言，这种方法解决了基于奖励的 LLM RL 对齐中的理论和实践挑战，为更鲁棒和自适应的对齐策略铺平了道路。代码和模型将公开共享。

查看 arXiv 页面查看 PDF

Young-Jun Lee

论文提交者

我认为当前的 RLAIF 训练流程，例如那些基于 PPO 或 GRPO 的，相对来说很原始，因为它们未能考虑到奖励建模过程中不断变化的训练上下文。本文介绍了一种简单而有效的元级奖励机制，它可以集成到现有的 PPO 框架中，显著提高了性能，同时减少了对提示工程的依赖并减轻了奖励作弊。

Byung-Kwan Lee

我想知道在奖励模型已经是超过1T大小的资深模型的情况下，元模型是否还有必要？

Zae Myung Kim

论文作者

即使是万亿参数的奖励模型（RM），如果其评估标准保持不变，也可能被利用。在我们的实验中，一个基于72B Qwen的RM持续地给一些退化的回复（例如“Title: The Myth of Reddit’s Inherent Badness …”—一个明显与任务不符的单行回复）打出了满分（5/5）。像PPO这样的强化学习算法在发现和利用这些漏洞方面非常有效，如果RM不调整其评估标准，训练可能会收敛到一个有缺陷的策略。当然，引入元奖励模型（MRM）的另一个关键优势是它可以自动化评估标准的细化。这意味着您无需为您的1T RM精心设计评估提示。希望这回答了您的问题！

Byung-Kwan Lee

谢谢您的友好回复。那么最后一个问题是，拥有优秀提示工程的 1T 奖励模型，对比拥有元模型但没有精心设计的提示工程的适中大小的奖励模型，哪一个会更有优势？

Zae Myung Kim

论文作者

这是一个很好的问题。假设我们有一些领域专家，他们为议论文写作精心设计了一个高度详细的评估标准，涵盖了所有已知的好议论文评判标准。即使有了这样的专家输入，强化学习策略仍然可以找到意想不到的方式来利用奖励模型的缺陷——例如，生成流畅的另一种语言的议论文，这可能仍然会获得高分。这揭示了一个更深层次的挑战：评估提示词也必须预测并惩罚失败案例，而这些“扣分标准”往往是事先无法预知的，因为它们取决于特定的策略模型、强化学习动态的随机性，以及即使是最大的奖励模型中存在的盲点。

如果你已经进行了大量的强化学习训练，找出了所有的漏洞，并相应地修补了你的评估标准，那么你实际上就拥有了一个“神谕提示词”。在这种情况下，MPO 可能就没有必要了——因为你已经手动完成了 MPO 自动完成的事情。第 3.5 节中的表 4 探讨了这种情况：使用 72B 奖励模型和神谕提示词的 PPO 模型表现优于 MPO，但当使用 32B 奖励模型时，MPO 仍然优于相同的设置。

总之：如果“优秀的提示工程”指的是专家编写的评估标准，那么 MPO 通过动态适应新出现的失败情况仍然具有优势。如果你已经拥有一个真正的神谕提示词，那么就不需要 MPO 了——但构建这样一个提示词的成本远高于简单地运行一个 MPO 训练循环。我们目前正在努力添加更多的基线来阐明这些情况。

谢谢你的提问！

Byung-Kwan Lee

是的，优秀的提示词就是指专家编写的评估标准。再次感谢您友好而迅速的回复。非常感谢您的出色工作。

迈向评估性思维：伴随演化奖励模型的元策略优化

摘要

评论