⏶5
从图表到代码:多模态模型的层次基准
发表
由
Henry Hengyuan Zhao 提交
作者: Jiahao Tang, Henry Hengyuan Zhao, Lijian Wu, Yifei Tao, Dongxing Mao, Yang Wan, Jingru Tan, Min Zeng, Min Li, Alex Jinpeng Wang
摘要
AI 生成总结
Chart2Code 是一个分层基准,用于评估大型多模态模型的图表理解和代码生成能力,具有三个复杂程度递增的级别和多样化的现实场景。我们引入了 Chart2Code,一个用于评估大型多模态模型 (LMM)
图表理解和代码生成能力的新基准。Chart2Code
明确从用户驱动的角度设计,捕捉多样化的真实世界场景并逐步增加任务难度。
它包含三个级别:级别 1(图表复现)从参考图和用户查询中复现图表;
级别 2(图表编辑)涉及复杂的修改,如更改图表类型或添加元素;
级别 3(长表到图表生成)要求模型根据用户指令将冗长、信息密集型表格转换为忠实图表。
据我们所知,这是第一个反映实际 chart2code
使用情况,同时系统地扩展任务复杂性的分层基准。
Chart2Code 总共包含 22 种图表类型的 2,023
个任务,并配有多级评估指标,评估代码正确性和渲染图表的视觉保真度。
我们对 25
个最先进的(SoTA)LMM 进行了基准测试,包括专有模型和最新的开源模型,
如 GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL 和 Seed-1.6-VL。
实验结果表明,即使是 SoTA 模型 GPT-5
在代码评估中的平均得分也只有 0.57,在编辑任务的图表质量评估中只有 0.22,
这凸显了 Chart2Code 的难度。我们预期该基准将推动多模态推理的进步,
并促进更稳健、更通用 LMM 的发展。我们的代码和数据可在 Chart2Code 上获取。
Chart2Code 是一个用于评估大型多模态模型(LMMs)图表理解和代码生成能力的新基准。
项目页面:https://csu-jpg.github.io/Chart2Code.github.io/
代码:https://github.com/CSU-JPG/Chart2Code
数据:https://huggingface.co/datasets/CSU-JPG/Chart2Code