DeepCritic:使用大型语言模型进行审慎批判

发表
Wenkai YangWenkai Yang 提交
作者: Wenkai YangWenkai Yang, Jingwen Chen, Yankai LinYankai Lin, Ji-Rong WenJi-Rong Wen

摘要

随着大型语言模型 (LLM) 的快速发展,对其输出提供准确反馈和可扩展的监督成为一个紧迫且关键的问题。利用 LLM 作为评价模型来实现自动化监督是一种很有前景的解决方案。在这项工作中,我们着重研究和增强 LLM 的数学评价能力。当前的 LLM 评论员在每个步骤上的评价过于浅显和表面化,导致判断准确性低,并且难以提供足够的反馈供 LLM 生成器纠正错误。为了解决这个问题,我们提出了一种新颖有效的两阶段框架,用于开发能够针对数学解题中的每个推理步骤进行深思熟虑评价的 LLM 评论员。在第一阶段,我们利用 Qwen2.5-72B-Instruct 生成 4.5K 个长篇评论作为监督微调的种子数据。每个种子评论都包含深思熟虑的逐步评价,其中包括多角度验证以及对每个推理步骤的初始评价的深入评价。然后,我们在微调模型上进行强化学习,使用现有的来自 PRM800K 的人工标注数据或我们通过基于蒙特卡洛采样的正确性估计自动标注的数据,以进一步激励其评价能力。我们基于 Qwen2.5-7B-Instruct 开发的评论模型不仅在各种错误识别基准上显著优于现有的 LLM 评论员(包括同等大小的 DeepSeek-R1-distill 模型和 GPT-4o),而且能通过更详细的反馈更有效地帮助 LLM 生成器改进错误的步骤。
查看 arXiv 页面查看 PDF

评论

Wenkai YangWenkai Yang
论文作者
论文提交者

我们提出了 DeepCritic 框架,使 LLM 评论员能够在经过深思熟虑的评估后提供判断。我们通过迭代合成精心策划了 4.5K 长篇评论数据用于 SFT,以教授模型如何执行深思熟虑的评论,随后进行 RL 以充分激发模型的评论能力。我们基于 Qwen2.5-7B-Instruct 构建的评论模型不仅在各种错误识别基准上优于现有 LLM 评论员(包括同等大小的 DeepSeek-R1-distill 模型和 GPT-4o),而且通过更详细的反馈,能更有效地帮助 LLM 生成器改进错误步骤。数据和模型可在 https://github.com/RUCBM/DeepCritic 获取。

Yang LiuYang Liu
此评论已隐藏。
weiyao_rucweiyao_ruc
此评论已隐藏。
AnIdealRingAnIdealRing

Kai 是我在 AI 领域的上帝。

Xu MaXu Ma

祝贺!

Wenkai YangWenkai Yang
论文作者
论文提交者

谢谢,Xu~

gianni gusigianni gusi

我不明白