PosterCraft:在统一框架下重新思考高质量美学海报生成

发表
YeYe 提交
作者: sixiang chenSiXiang Chen, Jianyu Lai, Jialin Gao, YeTian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong LinYunlong Lin, Song Fei, Zhaohu Xing, Yeying JinYeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu

摘要

生成美观的海报比简单的设计图片更具挑战性:它不仅需要精确的文本渲染,还需要抽象艺术内容、引人注目的布局和整体风格和谐的无缝集成。为解决此问题,我们提出了 PosterCraft,这是一个统一的框架,它摒弃了先前的模块化管道和僵硬的预定义布局,允许模型自由探索连贯且视觉上引人注目的构图。PosterCraft 采用精心设计的级联工作流来优化高美观海报的生成:(i) 在我们新引入的 Text-Render-2M 数据集上进行大规模文本渲染优化;(ii) 在 HQ-Poster100K 上进行区域感知监督微调;(iii) 通过 best-of-n 偏好优化实现美学文本强化学习;以及 (iv) 联合视觉-语言反馈优化。每个阶段都由根据其特定需求量身定制的全自动化数据构建管道支持,从而在不进行复杂架构修改的情况下实现稳健训练。在多项实验中,PosterCraft 在渲染精度、布局连贯性和整体视觉吸引力方面显著优于开源基线——其质量已接近最先进的商业系统。我们的代码、模型和数据集可在项目页面找到:https://ephemeral182.github.io/PosterCraft
查看 arXiv 页面查看 PDF

评论

YeYe
论文作者
论文提交者

摘要:生成美观的海报比简单的设计图像更具挑战性:它不仅需要精确的文本渲染,还需要抽象艺术内容、醒目布局和整体风格和谐的无缝整合。为解决此问题,我们提出了 PosterCraft,这是一个统一的框架,它摒弃了以往的模块化管道和僵化的预定义布局,允许模型自由探索连贯、视觉吸引力强的构图。PosterCraft 采用精心设计的级联工作流来优化高美观海报的生成:(i) 在我们新引入的 Text-Render-2M 数据集上进行大规模文本渲染优化;(ii) 在 HQ-Poster-100K 上进行区域感知监督微调;(iii) 通过最佳-n 偏好优化进行美学文本强化学习;以及 (iv) 视觉-语言联合反馈精炼。每个阶段都由一个根据其特定需求定制的全自动化数据构建管道支持,无需复杂的架构修改即可实现稳健的训练。在多项实验中,PosterCraft 在渲染精度、布局连贯性和整体视觉吸引力方面显著优于开源基线——接近最先进商业系统的质量。我们的代码、模型和数据集可在项目页面找到:https://ephemeral182.github.io/PosterCraft