⏶27
PVPO:基于预估值策略优化的智能体推理
发表
由
JGC 提交
作者:
Wenfeng Feng, Penghong Zhao,
Guochao Jiang,
Chuzhan Hao,
Yuewei Zhang, Hao Wang
摘要
无批评者强化学习方法,特别是群体策略,因其在复杂任务中的效率而备受关注。
然而,这些方法在策略内部严重依赖于多次采样和比较来估计优势,这可能导致策略陷入局部最优并增加计算成本。为了解决这些问题,我们提出了PVPO,一种高效的强化学习方法,通过优势参考锚和数据预采样进行增强。具体来说,我们使用参考模型提前进行模拟,并采用计算出的奖励分数作为参考锚。我们的方法有效地纠正了组内比较引入的累积偏差,并显著降低了对模拟次数的依赖。同时,参考模型可以在数据预采样期间评估样本难度,从而能够有效地选择高收益数据以提高训练效率。在两个领域九个数据集上进行的实验表明,PVPO取得了最先进(SOTA)的性能。我们的方法不仅在多任务上展现出强大的泛化能力,而且在不同规模的模型上表现出可扩展的性能。
PVPO,一种通过优势参考锚点和数据预采样增强的高效强化学习方法。