⏶21
DrafterBench:用于土木工程任务自动化的大型语言模型基准测试
发表
由
Zhen Dong 提交

作者:
Yinsheng Li,
Zhen Dong, Yi Shao

摘要
大型语言模型(LLM)智能体在解决现实世界问题方面展现出巨大潜力,并有望成为工业界任务自动化的解决方案。然而,需要更多的基准来从工业角度系统地评估自动化智能体,例如在土木工程领域。因此,我们提出了 DrafterBench,用于在技术图纸修订这一土木工程中的典型任务背景下,全面评估 LLM 智能体。DrafterBench 包含了从真实世界图纸文件中总结出的十二种任务类型,总共涉及 46 个定制函数/工具和 1920 个任务。DrafterBench 是一个开源基准,旨在严格测试 AI 智能体在解读复杂和长上下文指令、利用先验知识以及通过隐式策略感知适应动态指令质量方面的熟练程度。该工具包全面评估智能体在结构化数据理解、函数执行、指令遵循和批判性推理等不同方面的能力。DrafterBench 提供任务准确性和错误统计的详细分析,旨在深入洞察智能体的能力,并为 LLM 在工程应用中的集成确定改进目标。我们的基准可在 https://github.com/Eason-Li-AIS/DrafterBench 获取,测试集托管在 https://huggingface.co/datasets/Eason666/DrafterBench。

GitHub:https://github.com/Eason-Li-AIS/DrafterBench
HuggingFace:https://huggingface.co/datasets/Eason666/DrafterBench