⏶34
迈向评估性思维:伴随演化奖励模型的元策略优化
发表
由
Young-Jun Lee 提交

作者:
Zae Myung Kim, Chanwoo Park,
Vipul Raheja,
Dongyeop Kang

摘要
基于奖励的大型语言模型(LLM)对齐方法面临两个关键局限性:一是易受奖励攻击(reward hacking)的影响,即模型利用奖励信号的缺陷;二是当 LLM 用作奖励模型时,过度依赖脆弱且耗时耗力的提示工程(prompt engineering)。我们引入了元策略优化(Meta Policy Optimization, MPO),这是一个通过集成元奖励模型来解决这些挑战的框架,该模型在整个训练过程中动态优化奖励模型的提示。在 MPO 中,元奖励模型监控不断变化的训练上下文,并持续调整奖励模型的提示,以保持高对齐度,从而提供一种自适应的奖励信号,抵抗策略的利用。这种元学习(meta-learning)方法促进了更稳定的策略优化,并极大地减少了手动设计奖励提示的需求。其性能与通过大量人工精心设计的奖励提示指导的模型相当或更优。此外,我们表明 MPO 在问答和数学推理等不同任务中都能保持其有效性,无需专门的奖励设计。除了标准的 RLAIF,MPO 的元学习表述也易于扩展到更高级别的对齐框架。总体而言,这种方法解决了基于奖励的 LLM RL 对齐中的理论和实践挑战,为更鲁棒和自适应的对齐策略铺平了道路。代码和模型将公开共享。


评论

论文作者
这是一个很好的问题。假设我们有一些领域专家,他们为议论文写作精心设计了一个高度详细的评估标准,涵盖了所有已知的好议论文评判标准。即使有了这样的专家输入,强化学习策略仍然可以找到意想不到的方式来利用奖励模型的缺陷——例如,生成流畅的另一种语言的议论文,这可能仍然会获得高分。这揭示了一个更深层次的挑战:评估提示词也必须预测并惩罚失败案例,而这些“扣分标准”往往是事先无法预知的,因为它们取决于特定的策略模型、强化学习动态的随机性,以及即使是最大的奖励模型中存在的盲点。
如果你已经进行了大量的强化学习训练,找出了所有的漏洞,并相应地修补了你的评估标准,那么你实际上就拥有了一个“神谕提示词”。在这种情况下,MPO 可能就没有必要了——因为你已经手动完成了 MPO 自动完成的事情。第 3.5 节中的表 4 探讨了这种情况:使用 72B 奖励模型和神谕提示词的 PPO 模型表现优于 MPO,但当使用 32B 奖励模型时,MPO 仍然优于相同的设置。
总之:如果“优秀的提示工程”指的是专家编写的评估标准,那么 MPO 通过动态适应新出现的失败情况仍然具有优势。如果你已经拥有一个真正的神谕提示词,那么就不需要 MPO 了——但构建这样一个提示词的成本远高于简单地运行一个 MPO 训练循环。我们目前正在努力添加更多的基线来阐明这些情况。
谢谢你的提问!
我认为当前的 RLAIF 训练流程,例如那些基于 PPO 或 GRPO 的,相对来说很原始,因为它们未能考虑到奖励建模过程中不断变化的训练上下文。本文介绍了一种简单而有效的元级奖励机制,它可以集成到现有的 PPO 框架中,显著提高了性能,同时减少了对提示工程的依赖并减轻了奖励作弊。