⏶149

OmniSVG：统一的可扩展矢量图形生成模型

04月08日发表

04月09日由 sijin 提交

作者: Yiying Yang, Wei Cheng, sijin Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu Gang Yu, OpenTAI Xingjun Ma, Yu-Gang Jiang

摘要

可缩放矢量图形 (SVG) 是一种重要的图像格式，因其分辨率独立性和可编辑性而在图形设计中得到广泛应用。生成高质量 SVG 的研究不断吸引着 AIGC 社区的设计师和研究人员的关注。然而，现有方法要么产生计算成本巨大的非结构化输出，要么仅限于生成结构过于简化的单色图标。为了生成高质量且复杂的 SVG，我们提出了 OmniSVG，这是一个统一的框架，利用预训练的视觉语言模型 (VLM) 进行端到端多模态 SVG 生成。通过将 SVG 命令和坐标参数化为离散令牌，OmniSVG 将结构逻辑与低级几何图形分离，从而实现高效训练，同时保持复杂 SVG 结构的表现力。为了进一步推进 SVG 合成的发展，我们推出了 MMSVG-2M，这是一个包含两百万个丰富注释的 SVG 资产的多模态数据集，以及用于条件 SVG 生成任务的标准化评估协议。大量实验表明，OmniSVG 优于现有方法，并展示了其集成到专业 SVG 设计工作流程中的潜力。

查看 arXiv 页面查看 PDF

sijin

论文作者

论文提交者

可缩放矢量图形 (SVG) 是一种重要的图像格式，因其分辨率独立性和可编辑性而在图形设计中被广泛采用。生成高质量 SVG 的研究持续吸引着 AIGC 社区的设计师和研究人员的关注。然而，现有方法要么产生计算成本巨大的非结构化输出，要么仅限于生成结构过于简化的单色图标。为了生成高质量且复杂的 SVG，我们提出了 OmniSVG，这是一个统一的框架，利用预训练的视觉-语言模型 (VLM) 进行端到端的多模态 SVG 生成。通过将 SVG 命令和坐标参数化为离散 tokens，OmniSVG 将结构逻辑与底层几何图形解耦，从而实现高效训练，同时保持复杂 SVG 结构的表达能力。为了进一步推进 SVG 合成的发展，我们推出了 MMSVG-2M，一个包含两百万个丰富注释的 SVG 资产的多模态数据集，以及用于条件 SVG 生成任务的标准化评估协议。大量实验表明，OmniSVG 优于现有方法，并展示了其集成到专业 SVG 设计工作流程中的潜力。

项目页面：https://omnisvg.github.io/

Github: https://github.com/OmniSVG/OmniSVG

Huggingface: https://huggingface.co/OmniSVG

neburagimasatsugu

想念

OmniSVG：统一的可扩展矢量图形生成模型

摘要

评论