自信判断:校准自动评分器以适应偏好分布

发表
Zhuohang LiZhuohang Li 提交
作者: Zhuohang LiZhuohang Li, Xiaowei Li, Chengyu Huang, Guowang Li, Katayoon Goshvadi, Bo Dai, Dale Schuurmans, Paul Zhou, Hamid Palangi, Yiwen Song, Palash Goyal, Murat Kantarcioglu, Bradley A. Malin, Yuan Xue

摘要

AI 生成总结
一个通过监督微调和强化学习来校准概率自动评分器以适应偏好分布的框架,提高了与人类价值观的对齐度并减少了偏差。
大型语言模型 (LLMs) 与人类价值观的对齐,越来越依赖于使用其他 LLMs 作为自动裁判,或称为“自动评分员”。然而,它们的可靠性受到一个基本问题的限制:它们是在离散的偏好标签上训练的,迫使任务只有一个单一的真实答案,而这些任务通常是主观的、模糊的或微妙的。我们认为,一个可靠的自动评分员必须学会对目标人群定义的完整偏好分布进行建模。在本文中,我们提出了一个通用的框架,用于将概率自动评分员校准到任何给定的偏好分布。我们形式化了这个问题,并提出了两种针对不同数据条件的学习方法:1) 直接监督微调,用于密集、概率标签;2) 强化学习方法,用于稀疏、二元标签。我们的实证结果表明,使用匹配分布目标对自动评分员进行微调,可以产生与目标偏好分布更好地对齐的口头概率预测,具有更好的校准和显著降低的位置偏差,同时保留在客观任务上的性能。
查看 arXiv 页面查看 PDF

评论

Zhuohang LiZhuohang Li
论文作者
论文提交者

overview