⏶13
通过动态奖励权重学习优化多目标对齐
发表
由
Yining Lu 提交
作者:
Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
摘要
AI 生成总结
多目标强化学习中的动态奖励加权在训练过程中自适应调整权重,以有效探索帕累托前沿,优于固定权重标量化方法。多目标强化学习的先前工作通常使用具有固定权重的线性奖励标量化,这被证明无法捕捉非凸Pareto前沿,从而导致次优结果。在大型语言模型的在线偏好对齐中,这种限制尤其关键。这里,参数化策略生成的随机轨迹会产生高度非线性和非凸的参数到目标的映射,任何单一的静态权重方案都无法找到最优的权衡。我们通过引入动态奖励加权来解决这一限制,该方法在在线强化学习过程中自适应地调整奖励权重。与依赖固定权重插值现有的方法不同,我们的动态加权在训练中持续平衡和优先考虑目标,促进对目标空间中Pareto前沿的有效探索。我们引入了两种日益复杂和可泛化的方法:(1)超体积引导的权重自适应和(2)基于梯度的权重优化,为在线多目标对齐提供了一个通用的工具包。我们广泛的实验证明了它们与常用的在线强化学习算法(包括GRPO、REINFORCE和RLOO)的兼容性,在多个数学推理数据集上的有效性,以及在不同模型系列中的适用性,始终比固定权重线性标量化基线用更少的训练步骤获得Pareto占优解。
简而言之:我们提出了用于多目标 LLM 对齐的动态奖励加权,在在线强化学习期间重新平衡和优先排序目标,以提高跨目标的整体对齐质量。