⏶13

通过主动学习进行高效过程奖励模型训练

04月14日发表

04月16日由 Longxu Dou 提交

作者: Keyu Duan, Zichen Liu, Xin Mao, Tianyu Pang, Changyu Chen, Qiguang Chen, Michael Qizhe Shieh, Longxu Dou

摘要

过程奖励模型 (PRM) 为大型语言模型 (LLM) 提供步骤级别的监督，但对于人类和大型语言模型而言，扩展训练数据标注仍然具有挑战性。为了解决这个限制，我们提出了一种主动学习方法 ActPRM，它主动选择最不确定的样本进行训练，从而大幅降低标注成本。在训练期间，我们使用 PRM 在前向传递后估计不确定性，仅保留高度不确定的数据。然后，一个有能力但成本高昂的推理模型标注这些数据。然后，我们计算相对于标签的损失并更新 PRM 的权重。我们在基于池的主动学习设置中比较了 ActPRM 与原始微调，结果表明 ActPRM 减少了 50% 的标注，但取得了可比甚至更好的性能。除了标注效率之外，我们还通过 ActPRM 过滤了超过 100 万条数学推理轨迹，保留了 60% 的数据，进一步改进了主动训练的 PRM。随后对这个选定数据集的训练产生了一个新的最先进 (SOTA) PRM，在 ProcessBench (75.0%) 和 PRMBench (65.5%) 上，与相同大小的模型相比。

查看 arXiv 页面查看 PDF

Longxu Dou

论文作者

论文提交者

代码: https://github.com/sail-sg/ActivePRM

数据: https://huggingface.co/datasets/sail/ActPRMData

模型: https://huggingface.co/sail/ActPRM-X

通过主动学习进行高效过程奖励模型训练

摘要

评论