SVGenius: 对大型语言模型在SVG理解、编辑和生成方面进行基准测试

发表
Yongliang ShenYongliang Shen 提交
作者: chensiqiSiqi Chen, Xinyu Dong, xhlHaolei Xu, Xingyu Wu, Fei Tang, Hang Zhang, Yuchen YanYuchen Yan, Linjuan Wu, Wenqi Zhang, Guiyang Hou, Yongliang Shen, Weiming Lu, Yueting Zhuang

摘要

大语言模型(LLMs)和多模态大语言模型在SVG处理方面展现出良好能力,但现有基准存在真实世界覆盖范围有限、缺乏复杂性分层和评估范式碎片化的问题。我们引入了SVGenius,这是一个综合性基准,包含2,377个查询,涵盖三个渐进维度:理解、编辑和生成。SVGenius基于24个应用领域的真实世界数据构建,并进行了系统性的复杂性分层,通过8个任务类别和18个指标评估模型。我们评估了22个主流模型,这些模型涵盖了不同的规模、架构、训练范式和可访问性级别。我们的分析表明,尽管专有模型显著优于开源模型,但所有模型都随着复杂性的增加而表现出系统性的性能下降,这表明当前方法存在根本性局限;然而,推理增强训练在克服这些局限性方面比纯粹的规模扩展更有效,尽管风格迁移仍然是所有模型类型中最具挑战性的能力。SVGenius建立了首个用于SVG处理的系统性评估框架,为开发更强大的矢量图形模型和推进自动化图形设计应用提供了重要见解。附录和补充材料(包括所有数据和代码)可在 https://zju-real.github.io/SVGenius 获取。
查看 arXiv 页面查看 PDF

评论

Yongliang ShenYongliang Shen
论文提交者

项目: https://zju-real.github.io/SVGenius/

Github: https://github.com/ZJU-REAL/SVGenius