从多位评判者中学习高效的多轮对话评估器

发表
FengFeng 提交
作者: Yuqi Tang, FengKehua Feng, Yunfeng Wang, Zhiwen Chen, Chengfei Lv, Gang Yu, Qiang Zhang, Keyan Ding

摘要

评估大型语言模型(LLM)的对话能力仍然是一项具有挑战性的任务。当前主流方法主要依赖于“LLM作为裁判”的范式,即提示一个LLM充当评估者来评定对话质量。然而,这类方法常受到各种偏见的影响,从而损害了评估结果的可靠性和一致性。为了减轻这些偏见,近期的方法采用多个LLM作为裁判,并综合它们的判断来选出最佳评估。尽管这种多裁判方法行之有效,但在推理过程中会产生巨大的计算开销。在本文中,我们提出了一种高效的多轮对话评估器,它通过将多个LLM裁判的偏好知识聚合到一个单一模型中,从而汇集了它们的集体智慧。我们的方法保留了多裁判多样化反馈的优势,同时大幅降低了评估成本,实现了快速灵活的对话质量评估。在七个单一评分和成对比较的对话评估基准上进行的大量实验表明,我们的方法在各种场景下均优于现有基线,展现了其高效性和鲁棒性。
查看 arXiv 页面查看 PDF
从多位评判者中学习高效的多轮对话评估器

评论

FengFeng
论文作者
论文提交者

本文提出了一种高效的多轮对话评估器,通过将多个LLM评审的偏好知识聚合成一个模型来捕捉它们的集体智慧。