⏶4

定量大型语言模型评估器

06月03日发表

06月05日由 Franck Dernoncourt 提交

作者: Aishwarya Sahoo, Jeevana Kruthi Karnuthala, Tushar Parmanand Budhwani, Pranchal Agarwal, Sankaran Vaidyanathan, Alexa Siu, Franck Dernoncourt, Jennifer Healey, Nedim Lipka, Ryan Rossi, Uttaran Bhattacharya, Branislav Kveton

摘要

LLM-as-a-judge 是一种框架，其中大型语言模型（LLM）自动评估另一个 LLM 的输出。我们提出了量化 LLM 裁判，它使用回归模型将现有 LLM 裁判的评估分数与给定领域的人类分数对齐。这些模型通过使用裁判的文本评估和分数进行训练，以提高原始裁判的分数。我们展示了四种适用于不同类型绝对和相对反馈的量化裁判，这展示了我们框架的通用性和多功能性。我们的框架比有监督微调更具计算效率，并且在人类反馈有限时（这在我们工作的大多数应用中是预期情况）可以更具统计效率。我们通过在四个数据集上使用两个基础裁判的实验，验证了这些主张。我们的实验表明，量化裁判可以通过事后建模有效地提高现有裁判的预测能力。

查看 arXiv 页面查看 PDF

Franck Dernoncourt

论文作者

论文提交者

https://arxiv.org/abs/2506.02945

定量大型语言模型评估器

摘要

评论