⏶16

CompassJudger-2：通过可验证奖励迈向通用评判模型

07月12日发表

07月15日由 Songyang Zhang 提交

作者: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen

摘要

近来，使用大型语言模型作为评判者（LLM-as-judge）来评估其他大型语言模型的做法日益受到关注。然而，当前的评判模型存在专业领域狭窄和鲁棒性有限的问题，这削弱了它们进行全面评估的能力。在这项工作中，我们提出了 CompassJudger-2，这是一个新颖的通用评判模型，它通过任务驱动的多领域数据构建策略来克服这些限制。我们方法的核心是使用可验证的奖励来监督评判任务，并通过拒绝采样引导模型内在的批判性推理，以培养其鲁棒且可泛化的评判能力。我们引入了一种带有边界策略梯度损失的精细化学习目标，以提升模型性能。实验证明，CompassJudger-2 在多个评判和奖励基准上取得了优异的结果，我们的 7B 模型在评判准确性上表现出与 DeepSeek-V3 和 Qwen3-235B-A22B 等更大模型相媲美的竞争力。此外，我们还提出了 JudgerBenchV2，这是一个评估跨领域评判准确性和排名一致性的综合基准，旨在标准化评判模型的评估。这些贡献推动了鲁棒、可扩展的 LLM 评判技术的发展，并建立了新的性能和评估标准。

查看 arXiv 页面查看 PDF

Songyang Zhang

论文作者

论文提交者

模型：https://huggingface.co/collections/opencompass/compassjudger-2-686e99102ec896b8ea0f0a12

CompassJudger-2：通过可验证奖励迈向通用评判模型

摘要

评论