⏶34
使用MT-Bench和Chatbot Arena评估作为裁判的LLM
06月09日发表
04月12日由
AK 提交

作者:
Lianmin Zheng,
Wei-Lin Chiang,
Ying Sheng, Siyuan Zhuang,
Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li,
Dacheng Li, Eric. P Xing,
Hao Zhang, Joseph E. Gonzalez, Ion Stoica




摘要
评估基于大型语言模型 (LLM) 的聊天助手具有挑战性,因为它们的功能广泛,并且现有基准测试在衡量人类偏好方面存在不足。为了解决这个问题,我们探索使用强大的 LLM 作为评判员,在更开放式的问题上评估这些模型。我们检查了 LLM 作为评判员的用法和局限性,例如位置和冗长偏见以及有限的推理能力,并提出了迁移其中一些问题的解决方案。然后,我们通过引入两个基准测试来验证 LLM 评判员与人类偏好之间的一致性:MT-bench,一个多轮问题集;以及 Chatbot Arena,一个众包的战斗平台。我们的结果表明,像 GPT-4 这样的强大 LLM 评判员可以很好地匹配受控和众包的人类偏好,达到超过 80% 的一致性,这与人类之间的一致性水平相同。因此,LLM 作为评判员是一种可扩展且可解释的方式来近似人类偏好,而人类偏好通常非常昂贵。此外,我们通过评估 LLaMA/Vicuna 的几个变体,表明我们的基准测试和传统基准测试是互补的。我们将公开发布 80 个 MT-bench 问题、3K 专家投票以及来自 Chatbot Arena 的 3 万个包含人类偏好的对话。
评论
此评论已隐藏。