⏶13
通过主动学习进行高效过程奖励模型训练
04月14日发表
04月16日由
Longxu Dou 提交

作者: Keyu Duan, Zichen Liu, Xin Mao,
Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh,
Longxu Dou


摘要
过程奖励模型 (PRM) 为大型语言模型 (LLM) 提供步骤级别的监督,但对于人类和大型语言模型而言,扩展训练数据标注仍然具有挑战性。为了解决这个限制,我们提出了一种主动学习方法 ActPRM,它主动选择最不确定的样本进行训练,从而大幅降低标注成本。在训练期间,我们使用 PRM 在前向传递后估计不确定性,仅保留高度不确定的数据。然后,一个有能力但成本高昂的推理模型标注这些数据。然后,我们计算相对于标签的损失并更新 PRM 的权重。我们在基于池的主动学习设置中比较了 ActPRM 与原始微调,结果表明 ActPRM 减少了 50% 的标注,但取得了可比甚至更好的性能。除了标注效率之外,我们还通过 ActPRM 过滤了超过 100 万条数学推理轨迹,保留了 60% 的数据,进一步改进了主动训练的 PRM。随后对这个选定数据集的训练产生了一个新的最先进 (SOTA) PRM,在 ProcessBench (75.0%) 和 PRMBench (65.5%) 上,与相同大小的模型相比。
代码: https://github.com/sail-sg/ActivePRM
数据: https://huggingface.co/datasets/sail/ActPRMData
模型: https://huggingface.co/sail/ActPRM-X