一个Token欺骗LLM评判者

发表
Dian YuDian Yu 提交
作者: Yulai ZhaoYulai Zhao, Haolin Liu, Dian Yu, S. Y. Kung, Haitao Mi, Dong Yu

摘要

生成式奖励模型(也称为LLM判官模型),利用大型语言模型(LLM)评估答案质量,在可验证奖励强化学习(RLVR)中得到越来越多的应用。它们通常优于僵化的基于规则的指标,特别适用于涉及自由形式输出的复杂推理任务。在这种范式下,LLM通常被提示将候选答案与真实参考进行比较,并分配一个指示正确性的二元奖励。尽管这种比较任务看似简单,但我们发现生成式奖励模型对表面操作表现出惊人的脆弱性:非单词符号(例如“:”或“.”)或推理开头语如“Thought process:”和“Let's solve this problem step by step.”往往会导致假阳性奖励。我们证明了这种弱点在LLM、数据集和提示格式中普遍存在,对依赖生成式奖励模型的核心算法范式(如拒绝采样、偏好优化和RLVR)构成了严重威胁。为了缓解这个问题,我们引入了一种简单而有效的数据增强策略,并训练了一个鲁棒性显著提高的新生成式奖励模型。我们的研究结果强调了对更可靠的基于LLM的评估方法的迫切需求。我们已在https://huggingface.co/sarosavo/Master-RMhttps://huggingface.co/datasets/sarosavo/Master-RM发布了我们鲁棒的、通用领域的奖励模型及其合成训练数据。
查看 arXiv 页面查看 PDF

评论

Dian YuDian Yu
论文提交者
此评论已隐藏。
Tasha UpchurchTasha Upchurch

哇哦。

SherlockSherlock

听起来像一个边缘情况