VisCoder: 微调大型语言模型以生成可执行的 Python 可视化代码

发表
Yuansheng NiYuansheng Ni 提交
作者: Yuansheng NiYuansheng Ni, Ping Nie, Kai Zou, Xiang Yue, Wenhu ChenWenhu Chen

摘要

大型语言模型(LLM)在绘图、图表等可视化任务上常常力不从心,这类任务的成功取决于代码的正确性和视觉语义。现有的指令微调数据集缺乏基于执行的监督,并且对迭代代码纠错的支持有限,导致生成的图表脆弱且不可靠。我们提出了VisCode-200K,一个用于基于Python的可视化和自纠正的大规模指令微调数据集。它包含来自两个来源的超过20万个示例:(1) 来自开源仓库的经验证的绘图代码,与自然语言指令和渲染图表配对;以及 (2) 来自Code-Feedback的4.5万个多轮纠错对话,使模型能够使用运行时反馈修改错误代码。我们在VisCode-200K上对Qwen2.5-Coder-Instruct进行微调,创建了VisCoder,并在PandasPlotBench上对其进行评估。VisCoder显著优于强大的开源基线,并接近GPT-4o-mini等专有模型的性能。我们进一步采用了一种自调试评估协议来评估迭代修复能力,这证明了反馈驱动学习对于生成可执行、视觉准确代码的益处。
查看 arXiv 页面查看 PDF

评论

Yuansheng NiYuansheng Ni
论文作者
论文提交者

https://tiger-ai-lab.github.io/VisCoder/