⏶32
司南验证器 (CompassVerifier):一个用于大语言模型评估和结果奖励的统一鲁棒验证器
发表
由
Songyang Zhang 提交
作者:
Shudong Liu, Hongwei Liu,
Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

摘要
答案验证不仅对于评估大语言模型(LLM)至关重要——通过将其非结构化输出与标准答案进行匹配,而且还可作为奖励模型来指导 LLM 的优化。大多数评估框架依赖于正则表达式匹配或使用通用 LLM 进行答案验证,这需要为正则表达式规则或评估提示进行大量、重复的定制。当前方法存在两个根本局限:1) 缺乏系统性评估不同 LLM 验证能力的综合基准;2) 验证器开发尚处于初级阶段,现有方法在处理复杂边界情况方面不够鲁棒,且跨不同领域的泛化能力不足。在这项工作中,我们开发了 CompassVerifier,一个用于评估和结果奖励的准确、鲁棒的轻量级验证器模型。它展示了跨越数学、知识和多样化推理任务的多领域能力,能够处理包括多子问题、公式和序列答案在内的各种答案类型,同时能有效识别异常/无效响应。我们引入了 VerifierBench 基准,其中包含从多个数据源收集的模型输出,并通过对元错误模式的人工分析进行了增强,以改进 CompassVerifier。我们期望 CompassVerifier 和 VerifierBench 将促进答案验证、评估协议和强化学习的研究。代码和数据集可在 https://github.com/open-compass/CompassVerifier 获取。
https://github.com/open-compass/CompassVerifier