⏶4
定量大型语言模型评估器
发表
由
Franck Dernoncourt 提交
作者: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu,
Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton
摘要
LLM-as-a-judge 是一种框架,其中大型语言模型(LLM)自动评估另一个 LLM 的输出。我们提出了量化 LLM 裁判,它使用回归模型将现有 LLM 裁判的评估分数与给定领域的人类分数对齐。这些模型通过使用裁判的文本评估和分数进行训练,以提高原始裁判的分数。我们展示了四种适用于不同类型绝对和相对反馈的量化裁判,这展示了我们框架的通用性和多功能性。我们的框架比有监督微调更具计算效率,并且在人类反馈有限时(这在我们工作的大多数应用中是预期情况)可以更具统计效率。我们通过在四个数据集上使用两个基础裁判的实验,验证了这些主张。我们的实验表明,量化裁判可以通过事后建模有效地提高现有裁判的预测能力。
https://arxiv.org/abs/2506.02945