CompassJudger-2:通过可验证奖励迈向通用评判模型

发表
Songyang ZhangSongyang Zhang 提交
作者: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang ZhangSongyang Zhang, Kai Chen

摘要

近来,使用大型语言模型作为评判者(LLM-as-judge)来评估其他大型语言模型的做法日益受到关注。然而,当前的评判模型存在专业领域狭窄和鲁棒性有限的问题,这削弱了它们进行全面评估的能力。在这项工作中,我们提出了 CompassJudger-2,这是一个新颖的通用评判模型,它通过任务驱动的多领域数据构建策略来克服这些限制。我们方法的核心是使用可验证的奖励来监督评判任务,并通过拒绝采样引导模型内在的批判性推理,以培养其鲁棒且可泛化的评判能力。我们引入了一种带有边界策略梯度损失的精细化学习目标,以提升模型性能。实验证明,CompassJudger-2 在多个评判和奖励基准上取得了优异的结果,我们的 7B 模型在评判准确性上表现出与 DeepSeek-V3 和 Qwen3-235B-A22B 等更大模型相媲美的竞争力。此外,我们还提出了 JudgerBenchV2,这是一个评估跨领域评判准确性和排名一致性的综合基准,旨在标准化评判模型的评估。这些贡献推动了鲁棒、可扩展的 LLM 评判技术的发展,并建立了新的性能和评估标准。
查看 arXiv 页面查看 PDF

评论