Fin-PRM:面向金融推理的大模型领域专业奖励模型

发表
Jie ZhuJie Zhu 提交
作者: Yuanchen Zhou, Shuo Jiang, Jie ZhuJie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang

摘要

过程奖励模型(PRMs)已成为监督大型语言模型(LLMs)中间推理的有希望的框架,但现有的 PRMs 主要针对通用或科学、技术、工程和数学(STEM)领域进行训练,在金融等特定领域则表现不足,这些领域的推理更为结构化、符号化,并且对事实和监管的正确性敏感。我们引入了 Fin-PRM,这是一个领域专门化的、轨迹感知的 PRM,用于评估金融任务中的中间推理步骤。Fin-PRM 集成了步级和轨迹级的奖励监督,能够对与金融逻辑一致的推理轨迹进行细粒度评估。我们在离线和在线奖励学习设置中都应用了 Fin-PRM,支持三个关键应用:(i)为基于蒸馏的监督微调选择高质量的推理轨迹,(ii)为强化学习提供密集的进程级奖励,以及(iii)在测试时指导奖励感知的 Best-of-N 推理。在金融推理基准(包括 CFLUE 和 FinQA)上的实验结果表明,Fin-PRM 在轨迹选择质量方面始终优于通用 PRMs 和强大的领域基线。使用 Fin-PRM 训练的下游模型在基线模型上取得了显著的改进,在监督学习中提升了 12.9%,在强化学习中提升了 5.2%,在测试时性能提升了 5.1%。这些发现强调了领域专业化奖励建模对于将 LLMs 与专家级金融推理对齐的价值。我们的项目资源将在 https://github.com/aliyun/qwen-dianjin 提供。
查看 arXiv 页面查看 PDF

评论

Jie ZhuJie Zhu
论文作者
论文提交者

Fin-PRM