⏶5

从图表到代码：多模态模型的层次基准

10月20日发表

10月23日由 Henry Hengyuan Zhao 提交

作者: Jiahao Tang, Henry Hengyuan Zhao, Lijian Wu, Yifei Tao, Dongxing Mao, Yang Wan, Jingru Tan, Min Zeng, Min Li, Alex Jinpeng Wang

摘要

AI 生成总结

Chart2Code 是一个分层基准，用于评估大型多模态模型的图表理解和代码生成能力，具有三个复杂程度递增的级别和多样化的现实场景。

我们引入了 Chart2Code，一个用于评估大型多模态模型 (LMM) 图表理解和代码生成能力的新基准。Chart2Code 明确从用户驱动的角度设计，捕捉多样化的真实世界场景并逐步增加任务难度。它包含三个级别：级别 1（图表复现）从参考图和用户查询中复现图表；级别 2（图表编辑）涉及复杂的修改，如更改图表类型或添加元素；级别 3（长表到图表生成）要求模型根据用户指令将冗长、信息密集型表格转换为忠实图表。据我们所知，这是第一个反映实际 chart2code 使用情况，同时系统地扩展任务复杂性的分层基准。 Chart2Code 总共包含 22 种图表类型的 2,023 个任务，并配有多级评估指标，评估代码正确性和渲染图表的视觉保真度。我们对 25 个最先进的（SoTA）LMM 进行了基准测试，包括专有模型和最新的开源模型，如 GPT-5、Qwen2.5-VL、InternVL3/3.5、MiMo-VL 和 Seed-1.6-VL。实验结果表明，即使是 SoTA 模型 GPT-5 在代码评估中的平均得分也只有 0.57，在编辑任务的图表质量评估中只有 0.22，这凸显了 Chart2Code 的难度。我们预期该基准将推动多模态推理的进步，并促进更稳健、更通用 LMM 的发展。我们的代码和数据可在 Chart2Code 上获取。

查看 arXiv 页面查看 PDF

Henry Hengyuan Zhao

论文提交者

Chart2Code 是一个用于评估大型多模态模型（LMMs）图表理解和代码生成能力的新基准。

项目页面：https://csu-jpg.github.io/Chart2Code.github.io/
代码：https://github.com/CSU-JPG/Chart2Code
数据：https://huggingface.co/datasets/CSU-JPG/Chart2Code

从图表到代码：多模态模型的层次基准

摘要

评论