定量大型语言模型评估器

发表
Franck DernoncourtFranck Dernoncourt 提交
作者: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck DernoncourtFranck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton

摘要

LLM-as-a-judge 是一种框架,其中大型语言模型(LLM)自动评估另一个 LLM 的输出。我们提出了量化 LLM 裁判,它使用回归模型将现有 LLM 裁判的评估分数与给定领域的人类分数对齐。这些模型通过使用裁判的文本评估和分数进行训练,以提高原始裁判的分数。我们展示了四种适用于不同类型绝对和相对反馈的量化裁判,这展示了我们框架的通用性和多功能性。我们的框架比有监督微调更具计算效率,并且在人类反馈有限时(这在我们工作的大多数应用中是预期情况)可以更具统计效率。我们通过在四个数据集上使用两个基础裁判的实验,验证了这些主张。我们的实验表明,量化裁判可以通过事后建模有效地提高现有裁判的预测能力。
查看 arXiv 页面查看 PDF

评论

Franck DernoncourtFranck Dernoncourt
论文作者
论文提交者

https://arxiv.org/abs/2506.02945