⏶18

CLEAR：基于LLM评判的错误分析变得简单

07月24日发表

07月28日由 Asaf Yehudai 提交

作者: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer

摘要

大型语言模型（LLMs）的评估越来越依赖于其他LLM充当评判者。然而，当前的评估范式通常只产生一个单一的分数或排名，回答的是哪个模型更好，但没有说明原因。尽管对于基准测试至关重要，这些顶层分数却掩盖了模型性能背后的具体、可操作的原因。为了弥合这一差距，我们引入了CLEAR，一个用于基于LLM的错误分析的交互式开源软件包。CLEAR首先生成针对每个实例的文本反馈，然后创建一套系统级的错误问题，并量化每个已识别问题的普遍性。我们的软件包还为用户提供了一个交互式仪表板，通过聚合可视化实现全面的错误分析，应用交互式过滤器隔离特定问题或分数范围，并深入到具体展示某种行为模式的单个实例。我们展示了CLEAR在RAG和数学基准测试中的分析，并通过一个用户案例研究展示了其实用性。

查看 arXiv 页面查看 PDF

Asaf Yehudai

论文提交者

大型语言模型（LLM）的评估正日益依赖于其他LLM充当评判角色。然而，当前的评估范式通常只产生一个单一的分数或排名，回答哪个模型更好，但没有回答为什么。尽管对于基准测试至关重要，但这些高层次的分数却掩盖了模型性能背后的具体、可操作的原因。为了弥补这一差距，我们推出了CLEAR，一个用于基于LLM的错误分析的交互式开源软件包。CLEAR首先生成每个实例的文本反馈，然后它会创建一套系统级错误问题，并量化每个已识别问题的普遍性。我们的软件包还为用户提供了一个交互式仪表板，该仪表板可以通过聚合可视化进行全面的错误分析，应用交互式过滤器来隔离特定问题或分数范围，并深入到展示特定行为模式的单个实例。我们展示了CLEAR在RAG和数学基准测试中的分析，并通过用户案例研究展示了其效用。

CLEAR：基于LLM评判的错误分析变得简单

摘要

评论