⏶17
VerifyBench:面向大型语言模型的基于参考的奖励系统的基准测试
发表
由
Yuchen Yan 提交

作者:
Yuchen Yan, Jin Jiang, Zhenbang Ren, Yijun Li, Xudong Cai, Yang Liu, Xin Xu, Mengdi Zhang, Jian Shao,
Yongliang Shen, Jun Xiao, Yueting Zhuang

摘要
例如 OpenAI o1 和 DeepSeek-R1 这样的大规模推理模型在推理领域取得了卓越的性能。其训练的一个关键组成部分是将可验证的奖励融入强化学习(RL)中。然而,现有的奖励基准并未评估基于参考的奖励系统,使得研究人员对 RL 中使用的验证器的准确性理解有限。在本文中,我们引入了两个基准,VerifyBench 和 VerifyBench-Hard,旨在评估基于参考的奖励系统的性能。这些基准是通过细致的数据收集和整理构建的,随后经过仔细的人工标注以确保高质量。当前模型在 VerifyBench 和 VerifyBench-Hard 上仍有很大的改进空间,尤其是小型模型。此外,我们对评估结果进行了深入全面的分析,为理解和开发基于参考的奖励系统提供了见解。我们提出的基准可作为有效的工具,指导验证器准确性的提升以及通过 RL 训练的模型在推理任务中的推理能力的发展。
我们很高兴介绍 VerifyBench,这是一个旨在评估在对推理模型进行强化学习训练的背景下,基于引用的奖励系统的基准测试。