通过主动学习进行高效过程奖励模型训练

04月14日发表
04月16日由 Longxu DouLongxu Dou 提交
作者: Keyu Duan, Zichen Liu, Xin Mao, Tianyu PangTianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu DouLongxu Dou

摘要

过程奖励模型 (PRM) 为大型语言模型 (LLM) 提供步骤级别的监督,但对于人类和大型语言模型而言,扩展训练数据标注仍然具有挑战性。为了解决这个限制,我们提出了一种主动学习方法 ActPRM,它主动选择最不确定的样本进行训练,从而大幅降低标注成本。在训练期间,我们使用 PRM 在前向传递后估计不确定性,仅保留高度不确定的数据。然后,一个有能力但成本高昂的推理模型标注这些数据。然后,我们计算相对于标签的损失并更新 PRM 的权重。我们在基于池的主动学习设置中比较了 ActPRM 与原始微调,结果表明 ActPRM 减少了 50% 的标注,但取得了可比甚至更好的性能。除了标注效率之外,我们还通过 ActPRM 过滤了超过 100 万条数学推理轨迹,保留了 60% 的数据,进一步改进了主动训练的 PRM。随后对这个选定数据集的训练产生了一个新的最先进 (SOTA) PRM,在 ProcessBench (75.0%) 和 PRMBench (65.5%) 上,与相同大小的模型相比。
查看 arXiv 页面查看 PDF

评论