⏶6
超越二元奖励:训练语言模型以推理自身的不确定性
发表
由
Mehul Damani 提交
作者:
Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas
摘要
当语言模型(LM)通过强化学习(RL)训练生成自然语言“推理链”时,它们在各种困难的问答任务上的表现会得到改善。如今,几乎所有成功的强化学习推理应用都使用二元奖励函数来评估语言模型输出的正确性。由于此类奖励函数不惩罚猜测或低置信度输出,它们常常会产生意想不到的副作用,即降低校准度,并增加语言模型在其他问题领域生成错误响应(或“幻觉”)的频率。本文介绍了RLCR(带有校准奖励的强化学习),一种用于训练推理模型的方法,它能同时提高准确性和校准置信度估计。在RLCR期间,语言模型在推理后会生成预测和数值置信度估计。它们被训练来优化一个奖励函数,该函数将二元正确性分数与布里尔分数——一种用于置信度估计的评分规则,旨在激励校准预测——相结合。我们首先证明,这种奖励函数(或任何使用有界、适当评分规则的类似奖励函数)可以产生预测既准确又校准良好的模型。接下来,我们表明,在各种数据集上,RLCR在域内和域外评估中均显著提高了校准度而没有损失准确性——其表现优于普通的强化学习训练和旨在分配事后置信度分数的分类器。普通强化学习会损害校准度,而RLCR则能改善它。最后,我们证明了在测试时可以通过置信度加权缩放方法利用口头表达的置信度来提高准确性和校准度。我们的结果表明,明确地优化校准度可以产生更普遍可靠的推理模型。
本文介绍了RLCR(带校准奖励的强化学习),这是一种训练推理模型的方法,可共同提高准确性和校准置信度估计。