VCode:一个以 SVG 作为符号化视觉表示的多模态编码基准

发表
Qinghong (Kevin) LinQinghong (Kevin) Lin 提交
作者: Qinghong (Kevin) LinKevin Qinghong Lin, Yuhao Zheng, Hangyu RanHangyu Ran, dtDantong Zhu, Dongxing MaoDongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

摘要

AI 生成总结
VCode 引入了一个基准,用于从图像生成 SVG 代码以保留符号意义,突出显示了以视觉为中心的编码中的差距,并提出了 VCoder 来提高性能。
在智能体时代,代码已成为一种精确且可执行的推理和行动媒介。然而,进展主要集中于以语言为中心的任务,如程序合成和调试,而以视觉为中心的编码仍未得到充分探索。受人类如何对草图进行推理的启发,我们提倡将 SVG 代码作为一种紧凑、可解释且可执行的视觉表示。我们引入了 VCode,这是一个将多模态理解重构为代码生成的基准:给定一张图像,模型必须生成 SVG,以保留下游推理的符号意义。VCode 涵盖三个领域——通用常识(MM-Vet)、专业学科(MMMU)和以视觉为中心感知(CV-Bench)。为了评估符号保真度,我们提出了 CodeVQA,这是一种新颖的评估协议,其中策略模型对渲染的 SVG 回答问题;正确答案表明忠实的符号保留。经验表明,前沿 VLMs 在生成忠实的 SVG 方面表现不佳,这揭示了以语言为中心和以视觉为中心的编码之间持续存在的差距。为了弥合这一差距,我们引入了 VCoder,这是一个代理框架,它从两个方面增强了 VLMs:(i) 通过修订进行思考,它迭代地分析差异并完善 SVG 代码;(ii) 通过视觉工具进行行动,其中检测器和解析器提供超越模型内在能力的结构化线索,例如对象、形状和文本。在基准测试中,具有强大推理能力的前沿 VLMs 总体得分很高,但在专业知识和 3D 推理方面仍然有限。VCoder 比表现最佳的 Claude-4-Opus 整体提升了 12.3 分。人类研究表明,人类和 VLMs 在渲染的 SVG 上表现更差,它们的一致性揭示了符号视觉表示的前景。基准和代码可在 https://github.com/CSU-JPG/VCode 获取。
查看 arXiv 页面查看 PDF

评论

Qinghong (Kevin) LinQinghong (Kevin) Lin
论文作者
论文提交者

TL;DR: SVG代码作为符号视觉表示
项目页面: https://csu-jpg.github.io/VCode/
Github: https://github.com/CSU-JPG/VCode

teaser