⏶8

通过因果评估标准实现稳健的奖励建模

06月19日发表

06月24日由 Pragya Srivastava 提交

作者: Pragya Srivastava, Harman Singh, Rahul Madhavan, Gandharv Patil, Sravanti Addepalli, Arun Suggala, Rengarajan Aravamudhan, Soumya Sharma, Anirban Laha, Aravindan Raghuveer, Karthikeyan Shanmugam, Doina Precup

摘要

奖励模型（RMs）是大型语言模型（LLMs）通过人工反馈进行对齐的基础，但它们经常遭受奖励劫持（reward hacking）的困扰。它们倾向于依附于肤浅或虚假的属性，例如响应长度或格式，将这些从训练数据中相关性学到的线索误认为是质量的真正因果驱动因素（例如，事实性、相关性）。发生这种情况是因为标准训练目标难以解耦这些因素，导致奖励模型脆弱且策略未对齐。我们引入了 Crome（因果鲁棒奖励建模），一个基于显式因果模型的新颖框架，旨在减轻奖励劫持。Crome 在训练期间采用以下合成定向增强：(1) 因果增强，即沿特定因果属性不同的配对，以强制对每个因果属性单独敏感；以及 (2) 中性增强，即主要在虚假属性上变化的平级标签配对，以强制对虚假属性不变。值得注意的是，我们的增强是在不了解虚假因素的情况下产生的，仅通过沿由预言机 LLM 识别的因果规则进行答案干预。在经验上，Crome 在 RewardBench 上显著优于标准基线，平均准确率提高了高达 5.4%，在特定类别中获得了高达 13.2% 和 7.2% 的收益。Crome 的鲁棒性通过在增加 N 值的 Best-of-N 推理设置中，以及在各种基准（包括流行的 RewardBench（涵盖聊天、困难聊天、安全和推理任务）、以安全为中心的 WildGuardTest 和以推理为重点的 GSM8k）上获得的一致收益得到了进一步证明。

查看 arXiv 页面查看 PDF

Pragya Srivastava

论文作者

论文提交者

奖励作弊（Reward Hacking）是由于训练期间虚假特征与奖励标签之间存在不必要的关联而导致的。然而，虚假特征可能种类繁多，并且并非总能确定导致性能下降的虚假特征类型。

我们使用我们的方法 CROME 来解决这个问题。

CROME 提供了一种新颖的数据增强策略，用于训练奖励模型，使其对虚假性具有鲁棒性。主要特点如下：

✅ 我们不预设任何关于虚假性类型的知识

✅ 我们只依赖于来自预言机 LLM 的因果规则

✅ 我们沿特定因果规则扰动好答案和坏答案来创建这些增强数据。

此外，我们使用问题随机化来强制实现对虚假性的不变性，而无需了解虚假特征是什么。

🏆 在 RewardBench 上，准确率提升高达 5.4%，其中安全（+13.2%）和推理（+7.2%）方面增益巨大。

🏆 在 reWordBench 上具有卓越的鲁棒性，总准确率提升高达 9.1%，并在 23 种转换中有 21 种表现优异。

🏆 在各种基准测试中，下游 Best-of-N 选择始终得到改进。

Erfan Loghmani

这非常有趣，与我最新的研究高度相关！在我们的工作中，我们超越了不变性，并提出了完全消除虚假效应的方法。我们的方法 DeconfoundLM 直接消除了奖励信号的偏差。很乐意进一步交流！

X 帖子：https://x.com/LoghmaniErfan/status/1937567084898336895

网页：https://deconfoundlm.github.io/

通过因果评估标准实现稳健的奖励建模

摘要

评论