⏶100
VCode:一个以 SVG 作为符号化视觉表示的多模态编码基准
发表
由
Qinghong (Kevin) Lin 提交
作者:
Kevin Qinghong Lin, Yuhao Zheng,
Hangyu Ran,
Dantong Zhu,
Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
摘要
AI 生成总结
VCode 引入了一个基准,用于从图像生成 SVG 代码以保留符号意义,突出显示了以视觉为中心的编码中的差距,并提出了 VCoder 来提高性能。在智能体时代,代码已成为一种精确且可执行的推理和行动媒介。然而,进展主要集中于以语言为中心的任务,如程序合成和调试,而以视觉为中心的编码仍未得到充分探索。受人类如何对草图进行推理的启发,我们提倡将 SVG 代码作为一种紧凑、可解释且可执行的视觉表示。我们引入了 VCode,这是一个将多模态理解重构为代码生成的基准:给定一张图像,模型必须生成 SVG,以保留下游推理的符号意义。VCode 涵盖三个领域——通用常识(MM-Vet)、专业学科(MMMU)和以视觉为中心感知(CV-Bench)。为了评估符号保真度,我们提出了 CodeVQA,这是一种新颖的评估协议,其中策略模型对渲染的 SVG 回答问题;正确答案表明忠实的符号保留。经验表明,前沿 VLMs 在生成忠实的 SVG 方面表现不佳,这揭示了以语言为中心和以视觉为中心的编码之间持续存在的差距。为了弥合这一差距,我们引入了 VCoder,这是一个代理框架,它从两个方面增强了 VLMs:(i) 通过修订进行思考,它迭代地分析差异并完善 SVG 代码;(ii) 通过视觉工具进行行动,其中检测器和解析器提供超越模型内在能力的结构化线索,例如对象、形状和文本。在基准测试中,具有强大推理能力的前沿 VLMs 总体得分很高,但在专业知识和 3D 推理方面仍然有限。VCoder 比表现最佳的 Claude-4-Opus 整体提升了 12.3 分。人类研究表明,人类和 VLMs 在渲染的 SVG 上表现更差,它们的一致性揭示了符号视觉表示的前景。基准和代码可在 https://github.com/CSU-JPG/VCode 获取。
TL;DR: SVG代码作为符号视觉表示
项目页面: https://csu-jpg.github.io/VCode/
Github: https://github.com/CSU-JPG/VCode