⏶16
CompassJudger-2:通过可验证奖励迈向通用评判模型
发表
由
Songyang Zhang 提交
作者: Taolin Zhang, Maosong Cao, Alexander Lam,
Songyang Zhang, Kai Chen
摘要
近来,使用大型语言模型作为评判者(LLM-as-judge)来评估其他大型语言模型的做法日益受到关注。然而,当前的评判模型存在专业领域狭窄和鲁棒性有限的问题,这削弱了它们进行全面评估的能力。在这项工作中,我们提出了 CompassJudger-2,这是一个新颖的通用评判模型,它通过任务驱动的多领域数据构建策略来克服这些限制。我们方法的核心是使用可验证的奖励来监督评判任务,并通过拒绝采样引导模型内在的批判性推理,以培养其鲁棒且可泛化的评判能力。我们引入了一种带有边界策略梯度损失的精细化学习目标,以提升模型性能。实验证明,CompassJudger-2 在多个评判和奖励基准上取得了优异的结果,我们的 7B 模型在评判准确性上表现出与 DeepSeek-V3 和 Qwen3-235B-A22B 等更大模型相媲美的竞争力。此外,我们还提出了 JudgerBenchV2,这是一个评估跨领域评判准确性和排名一致性的综合基准,旨在标准化评判模型的评估。这些贡献推动了鲁棒、可扩展的 LLM 评判技术的发展,并建立了新的性能和评估标准。
模型:https://huggingface.co/collections/opencompass/compassjudger-2-686e99102ec896b8ea0f0a12