CLEAR:基于LLM评判的错误分析变得简单

发表
Asaf YehudaiAsaf Yehudai 提交
作者: Asaf Yehudai, Lilach Eden, Yotam Perlitz, Roy Bar-Haim, Michal Shmueli-Scheuer

摘要

大型语言模型(LLMs)的评估越来越依赖于其他LLM充当评判者。然而,当前的评估范式通常只产生一个单一的分数或排名,回答的是哪个模型更好,但没有说明原因。尽管对于基准测试至关重要,这些顶层分数却掩盖了模型性能背后的具体、可操作的原因。为了弥合这一差距,我们引入了CLEAR,一个用于基于LLM的错误分析的交互式开源软件包。CLEAR首先生成针对每个实例的文本反馈,然后创建一套系统级的错误问题,并量化每个已识别问题的普遍性。我们的软件包还为用户提供了一个交互式仪表板,通过聚合可视化实现全面的错误分析,应用交互式过滤器隔离特定问题或分数范围,并深入到具体展示某种行为模式的单个实例。我们展示了CLEAR在RAG和数学基准测试中的分析,并通过一个用户案例研究展示了其实用性。
查看 arXiv 页面查看 PDF

评论

Asaf YehudaiAsaf Yehudai
论文提交者

大型语言模型(LLM)的评估正日益依赖于其他LLM充当评判角色。然而,当前的评估范式通常只产生一个单一的分数或排名,回答哪个模型更好,但没有回答为什么。尽管对于基准测试至关重要,但这些高层次的分数却掩盖了模型性能背后的具体、可操作的原因。为了弥补这一差距,我们推出了CLEAR,一个用于基于LLM的错误分析的交互式开源软件包。CLEAR首先生成每个实例的文本反馈,然后它会创建一套系统级错误问题,并量化每个已识别问题的普遍性。我们的软件包还为用户提供了一个交互式仪表板,该仪表板可以通过聚合可视化进行全面的错误分析,应用交互式过滤器来隔离特定问题或分数范围,并深入到展示特定行为模式的单个实例。我们展示了CLEAR在RAG和数学基准测试中的分析,并通过用户案例研究展示了其效用。