⏶149
OmniSVG:统一的可扩展矢量图形生成模型
发表
由
sijin 提交

作者:
Yiying Yang,
Wei Cheng,
Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang,
Gang Yu,
Xingjun Ma, Yu-Gang Jiang




摘要
可缩放矢量图形 (SVG) 是一种重要的图像格式,因其分辨率独立性和可编辑性而在图形设计中得到广泛应用。生成高质量 SVG 的研究不断吸引着 AIGC 社区的设计师和研究人员的关注。然而,现有方法要么产生计算成本巨大的非结构化输出,要么仅限于生成结构过于简化的单色图标。为了生成高质量且复杂的 SVG,我们提出了 OmniSVG,这是一个统一的框架,利用预训练的视觉语言模型 (VLM) 进行端到端多模态 SVG 生成。通过将 SVG 命令和坐标参数化为离散令牌,OmniSVG 将结构逻辑与低级几何图形分离,从而实现高效训练,同时保持复杂 SVG 结构的表现力。为了进一步推进 SVG 合成的发展,我们推出了 MMSVG-2M,这是一个包含两百万个丰富注释的 SVG 资产的多模态数据集,以及用于条件 SVG 生成任务的标准化评估协议。大量实验表明,OmniSVG 优于现有方法,并展示了其集成到专业 SVG 设计工作流程中的潜力。

可缩放矢量图形 (SVG) 是一种重要的图像格式,因其分辨率独立性和可编辑性而在图形设计中被广泛采用。生成高质量 SVG 的研究持续吸引着 AIGC 社区的设计师和研究人员的关注。然而,现有方法要么产生计算成本巨大的非结构化输出,要么仅限于生成结构过于简化的单色图标。为了生成高质量且复杂的 SVG,我们提出了 OmniSVG,这是一个统一的框架,利用预训练的视觉-语言模型 (VLM) 进行端到端的多模态 SVG 生成。通过将 SVG 命令和坐标参数化为离散 tokens,OmniSVG 将结构逻辑与底层几何图形解耦,从而实现高效训练,同时保持复杂 SVG 结构的表达能力。为了进一步推进 SVG 合成的发展,我们推出了 MMSVG-2M,一个包含两百万个丰富注释的 SVG 资产的多模态数据集,以及用于条件 SVG 生成任务的标准化评估协议。大量实验表明,OmniSVG 优于现有方法,并展示了其集成到专业 SVG 设计工作流程中的潜力。
项目页面:https://omnisvg.github.io/
Github: https://github.com/OmniSVG/OmniSVG
Huggingface: https://huggingface.co/OmniSVG