⏶18
StructEval:评估 LLMs 生成结构化输出能力的基准
发表
由
Dongfu Jiang 提交

作者:
Jialin Yang,
Dongfu Jiang,
Lipeng He,
Sherman Siu,
Yuxuan Zhang,
Disen Liao,
Zhuofeng Li, Huaye Zeng,
Yiming Jia, Haozhe Wang,
Benjamin Schneider,
Chi Ruan,
Wentao Ma,
Zhiheng Lyu,
Yifei Wang, Yi Lu,
Quy Duc Do,
Ziyan Jiang,
Ping Nie,
Wenhu Chen







摘要
随着大型语言模型 (LLMs) 成为软件开发工作流程中不可或缺的一部分,其生成结构化输出的能力变得至关重要。我们引入了 StructEval,这是一个全面的基准测试,用于评估 LLMs 生成不可渲染(JSON, YAML, CSV)和可渲染(HTML, React, SVG)结构化格式的能力。与现有基准不同,StructEval 通过两种范式系统地评估跨不同格式的结构忠实度:1)生成任务,从自然语言提示生成结构化输出;2)转换任务,在结构化格式之间进行转换。我们的基准测试涵盖了 18 种格式和 44 种任务类型,并引入了用于格式依从性和结构正确性的新颖指标。结果揭示了显著的性能差距,即使是像 o1-mini 这样的最先进模型也仅获得 75.58 的平均分数,而开源替代方案则落后约 10 分。我们发现生成任务比转换任务更具挑战性,生成正确的视觉内容比生成纯文本结构更困难。
请访问我们的网站: https://tiger-ai-lab.github.io/StructEval/