数学推理中基于不确定性的自动过程奖励数据构建和输出聚合方法

发表
Jiuzhou HanJiuzhou Han 提交
作者: Jiuzhou Han, Wray Buntine, Ehsan Shareghi

摘要

大型语言模型在复杂的数学推理任务中展现出卓越的能力,但在多步骤解决方案中不可避免地会产生错误。过程级奖励模型(PRMs)通过在每个中间步骤提供监督和评估,从而有效提高了模型的推理能力,展现出巨大的潜力。然而,训练有效的PRMs需要高质量的过程奖励数据,而现有的构建此类数据的方法通常是劳动密集型或效率低下的。在本文中,我们提出了一种不确定性驱动的自动化过程奖励数据构建框架,该框架涵盖了PRMs的数据生成和标注过程。此外,我们指出了多数投票和PRMs的局限性,并引入了两种通用的不确定性感知输出聚合方法:混合多数奖励投票和加权奖励频率投票,它们结合了多数投票和PRMs的优点。在ProcessBench、MATH和GSMPlus上进行的广泛实验表明,所提出的PRM数据构建框架的有效性和效率,并证明这两种输出聚合方法进一步提高了不同PRMs的数学推理能力。代码和数据将在https://github.com/Jiuzhouh/UnPRM公开提供。
查看 arXiv 页面查看 PDF

评论

Jiuzhou HanJiuzhou Han
论文提交者

代码将在 https://github.com/Jiuzhouh/UnPRM 提供。