⏶6
通过 Mirror Prox 加速来自人类反馈的纳什学习
发表
由
Daniil Tiapkin 提交

作者:
Daniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov,
Kashif Rasul,
Michal Valko, Pierre Menard



摘要
传统的基于人类反馈的强化学习 (RLHF) 通常依赖于奖励模型,这些模型经常假设偏好结构,如 Bradley-Terry 模型,但这可能无法准确捕捉真实人类偏好的复杂性(例如,非传递性)。基于纳什均衡的人类反馈学习 (NLHF) 提供了一种更直接的替代方案,它将问题框架为寻找由这些偏好定义的博弈的纳什均衡。在这项工作中,我们引入了 Nash Mirror Prox (Nash-MP),这是一种在线 NLHF 算法,利用 Mirror Prox 优化方案实现快速稳定的收敛到纳什均衡。我们的理论分析表明,Nash-MP 在最后一次迭代时对 beta 正则化的纳什均衡表现出线性收敛。具体而言,我们证明了与最优策略之间的 KL 散度以 (1+2beta)^{-N/2} 的速率下降,其中 N 是偏好查询次数。我们进一步证明了可利用性差距以及对数概率的跨度半范数在最后一次迭代时均表现出线性收敛,所有这些收敛速率都与动作空间的大小无关。此外,我们提出并分析了 Nash-MP 的一个近似版本,其中近端步骤使用随机策略梯度进行估计,使该算法更接近实际应用。最后,我们详细介绍了一种用于微调大型语言模型的实用实现策略,并展示了实验结果,证明了其具有竞争力的性能以及与现有方法的兼容性。


传统的基于人类反馈的强化学习 (RLHF) 通常依赖于奖励模型,常常假设偏好结构,例如 Bradley-Terry 模型,这些假设可能无法准确捕捉真实人类偏好的复杂性(例如,非传递性)。基于人类反馈的纳什学习 (NLHF) 提供了一种更直接的替代方案,通过将问题构建为寻找由这些偏好定义的博弈的纳什均衡。在这项工作中,我们介绍了 Nash Mirror Prox (Nash MP),这是一种在线 NLHF 算法,利用 Mirror Prox 优化方案以实现快速稳定地收敛到纳什均衡。我们的理论分析表明,Nash-MP 对 $\beta$ 正则化的纳什均衡表现出最终迭代线性收敛。具体来说,我们证明了到最优策略的 KL 散度以 $(1+2\beta)^{-N/2}$ 的阶次下降,其中 $N$ 是偏好查询的数量。我们进一步证明了可利用性差距和对数概率跨度半范数的最终迭代线性收敛,并且是均匀的,所有这些收敛率都与行动空间的大小无关。此外,我们提出并分析了一个近似版本的 Nash-MP,其中近端步骤使用随机策略梯度进行估计,这使得该算法更接近实际应用。最后,我们详细介绍了一种用于微调大型语言模型的实用实现策略,并展示了实验结果,证明其具有竞争力的性能和与现有方法的兼容性。