⏶8
ExpertLongBench:通过结构化核对表评估语言模型在专家级长篇生成任务上的表现
发表
由
Jie Ruan 提交
作者:
Jie Ruan, Inderjeet Nair, Shuyang Cao,
Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
摘要
本文介绍了ExpertLongBench,这是一个专家级基准测试,包含来自9个领域的11项任务,反映了真实的专家工作流程和应用。除了问答之外,ExpertLongBench中以应用为导向的任务要求长篇输出(可超过5,000个token),并严格遵守领域特定要求。值得注意的是,ExpertLongBench中的每项任务都包含一个由领域专家设计或验证的评分标准,以明确任务要求并指导输出评估。此外,我们提出了CLEAR,一个评估框架,支持对我们基准测试中的长篇模型输出进行准确评估。为了实现细粒度、与专家对齐的评估,CLEAR通过从模型输出和参考中提取与任务特定评分标准中项目对应的信息来生成清单。然后将模型输出的清单项目与参考输出的相应项目进行比较,以评估其正确性,从而实现有依据的评估。我们对11个大型语言模型(LLM)进行了基准测试,并分析了CLEAR中的组成部分,结果显示:(1) 现有LLM在专家级任务上需要显著改进,其中表现最佳的模型F1分数仅为26.8%;(2) 模型可以生成与所需方面对应的内容,但通常不够准确;以及 (3) 在CLEAR中,开放权重模型可以实现准确的清单提取和比较,从而实现更可扩展和低成本的使用。
本文介绍了 ExpertLongBench,这是一个专家级基准测试,包含来自 9 个领域的 11 项任务,反映了现实世界的专家工作流程和应用。除了问答,ExpertLongBench 中的应用驱动型任务要求长篇输出,可能超过 5,000 个词元,并严格遵守领域特定要求。值得注意的是,ExpertLongBench 中的每项任务都包含一份由领域专家设计或验证的评估标准(rubric),用于明确任务要求并指导输出评估。此外,我们提出了 CLEAR,一个评估框架,支持对我们基准测试中的长篇模型输出进行准确评估。为了实现细粒度、与专家对齐的评估,CLEAR 通过从模型输出和参考中提取与任务特定评估标准(rubric)中的项目相对应的信息,从而得出核对清单。然后将模型输出的核对清单项目与参考输出的相应项目进行比较,以评估其正确性,从而实现有依据的评估。我们对 11 个大型语言模型 (LLMs) 进行了基准测试,并分析了 CLEAR 中的组成部分,结果表明:(1) 现有的大型语言模型,即使是表现最好的模型也仅达到 26.8% 的 F1 分数,在专家级任务方面需要显著改进;(2) 模型可以生成与所需方面对应的内容,但通常不够准确;以及 (3) CLEAR 中准确的核对清单提取和比较可以通过开源模型实现,以实现更可扩展和低成本的使用。