用于矢量图形生成的渲染感知强化学习

发表
Juan A. RodriguezJuan A. Rodriguez 提交
作者: Juan A. RodriguezJuan A. Rodriguez, Haotian ZhangHaotian Zhang, Abhay Puri, Aarash Feizi, Rishav PramanikRishav Pramanik, Pascal Wichmann, Arnab Mondal, Mohammad Reza Samsami, Rabiul AwalRabiul Awal, Perouz Taslakian, Spandana Gella, Sai Rajeswar, David Vazquez, Christopher Pal, Marco Pedersoli

摘要

可伸缩矢量图形 (SVG) 提供了一种强大的格式,用于将视觉设计表示为可解释的代码。视觉-语言模型 (VLM) 的最新进展通过将问题框定为代码生成任务并利用大规模预训练,实现了高质量的 SVG 生成。VLM 特别适合这项任务,因为它们能够捕捉全局语义和细粒度的视觉模式,同时跨越视觉、自然语言和代码领域迁移知识。然而,现有的 VLM 方法通常难以生成忠实且高效的 SVG,因为它们在训练过程中从未观察到渲染后的图像。尽管自回归 SVG 代码生成的可微分渲染仍然不可用,但渲染输出仍然可以与原始输入进行比较,从而实现适用于强化学习 (RL) 的评估反馈。我们引入了 RLRF(基于渲染反馈的强化学习),这是一种 RL 方法,它通过利用渲染后的 SVG 输出中的反馈来增强自回归 VLM 中的 SVG 生成能力。给定一张输入图像,模型会生成 SVG 生成结果,这些结果会被渲染并与原始图像进行比较,以计算奖励。这种视觉保真度反馈指导模型生成更准确、更高效且语义上更一致的 SVG。RLRF 显著优于有监督微调,解决了常见的失败模式,并实现了具有强大结构理解能力和泛化能力的精确、高质量 SVG 生成。
查看 arXiv 页面查看 PDF
用于矢量图形生成的渲染感知强化学习
用于矢量图形生成的渲染感知强化学习
用于矢量图形生成的渲染感知强化学习

评论

Juan A. RodriguezJuan A. Rodriguez
论文作者
论文提交者

我们引入了RLRF:基于渲染反馈的强化学习。RL用于SVG!

可伸缩矢量图形(SVG)提供了一种强大的格式,可以将视觉设计表示为可解释的代码。视觉-语言模型(VLM)的最新进展,通过将问题视为代码生成任务并利用大规模预训练,实现了高质量的SVG生成。VLM特别适合此任务,因为它们既能捕捉全局语义,又能捕捉细粒度的视觉模式,同时还能在视觉、自然语言和代码领域之间迁移知识。然而,现有的VLM方法往往难以生成逼真且高效的SVG,因为它们在训练过程中从未观察过渲染图像。尽管用于自回归SVG代码生成的可微渲染技术尚不可用,但渲染输出仍可与原始输入进行比较,从而实现适用于强化学习(RL)的评估性反馈。我们引入了RLRF(基于渲染反馈的强化学习),这是一种RL方法,通过利用渲染后的SVG输出的反馈来增强自回归VLM中的SVG生成。给定输入图像,模型会生成SVG序列,这些序列被渲染并与原始图像进行比较以计算奖励。这种视觉保真度反馈指导模型生成更准确、更高效、更语义连贯的SVG。RLRF显著优于有监督微调,解决了常见的失败模式,并实现了具有强大结构理解能力和泛化能力的精确、高质量SVG生成。

Andrew PouliotAndrew Pouliot

很棒的论文! 几个问题:

  1. 对于 RLRF 在 Image→SVG 任务上,训练过程中的生成 prompt 是什么?

  2. 由于 cairosvg 只支持部分 SVG,你们是否与 SVG 在浏览器中的渲染效果进行了比较?

  3. 关于课程学习(curriculum learning),即先从简单例子开始,然后是中等难度等等,而不是使用 SFT 进行引导,有什么想法?