StructEval:评估 LLMs 生成结构化输出能力的基准

发表
Dongfu JiangDongfu Jiang 提交
作者: Jialin YangJialin Yang, Dongfu JiangDongfu Jiang, Lipeng (Tony) HeLipeng He, Sherman SiuSherman Siu, Yuxuan ZhangYuxuan Zhang, disen-liaoDisen Liao, ZhuofengLiZhuofeng Li, Huaye Zeng, Yiming JiaYiming Jia, Haozhe Wang, Benjamin SchneiderBenjamin Schneider, chiruanChi Ruan, Wentao MaWentao Ma, Zhiheng LyuZhiheng Lyu, Yifei WangYifei Wang, Yi Lu, Quy Duc DoQuy Duc Do, Ziyan JiangZiyan Jiang, Ping NiePing Nie, Wenhu ChenWenhu Chen

摘要

随着大型语言模型 (LLMs) 成为软件开发工作流程中不可或缺的一部分,其生成结构化输出的能力变得至关重要。我们引入了 StructEval,这是一个全面的基准测试,用于评估 LLMs 生成不可渲染(JSON, YAML, CSV)和可渲染(HTML, React, SVG)结构化格式的能力。与现有基准不同,StructEval 通过两种范式系统地评估跨不同格式的结构忠实度:1)生成任务,从自然语言提示生成结构化输出;2)转换任务,在结构化格式之间进行转换。我们的基准测试涵盖了 18 种格式和 44 种任务类型,并引入了用于格式依从性和结构正确性的新颖指标。结果揭示了显著的性能差距,即使是像 o1-mini 这样的最先进模型也仅获得 75.58 的平均分数,而开源替代方案则落后约 10 分。我们发现生成任务比转换任务更具挑战性,生成正确的视觉内容比生成纯文本结构更困难。
查看 arXiv 页面查看 PDF

评论

Dongfu JiangDongfu Jiang
论文作者
论文提交者

请访问我们的网站: https://tiger-ai-lab.github.io/StructEval/