PosterGen:通过多代理 LLM 进行审美感知论文到海报生成

发表
xiang wyatt zhangxiang wyatt zhang 提交
作者: Hadlay ZhangZhilin Zhang, Xiang Zhang, Jiaqi WeiJiaqi Wei, Yiwei Xu, Chenyu You

摘要

基于大型语言模型 (LLM) 的多智能体系统在解决复杂的组合任务方面展现出了卓越的能力。在这项工作中,我们将此范式应用于纸质海报生成问题,这是研究人员在准备会议时面临的一项实际但耗时的工作。虽然近期的方法试图自动化这项任务,但大多数方法都忽略了核心设计和美学原则,导致生成的论文海报需要大量的手动调整。为了解决这些设计上的局限性,我们提出了 PosterGen,这是一个模仿专业海报设计师工作流程的多智能体框架。它由四个协作的专业智能体组成:(1) 解析器和策划者智能体从论文中提取内容并组织故事板;(2) 布局智能体将内容映射成连贯的空间布局;(3) 风格化智能体应用颜色和排版等视觉设计元素;(4) 渲染器智能体组合最终的海报。这些智能体共同生成语义上准确且在视觉上吸引人的海报。为了评估设计质量,我们引入了一个基于视觉语言模型 (VLM) 的评估标准,用于衡量布局平衡、可读性和美学连贯性。实验结果表明,PosterGen 在内容保真度上始终能与现有方法相媲美,并且在视觉设计方面显著优于现有方法,生成的论文海报具有即时演示的准备度,只需少量人工修改。
查看 arXiv 页面查看 PDF

评论

xiang wyatt zhangxiang wyatt zhang
论文提交者

海报生成代理

Hadlay ZhangHadlay Zhang
论文作者

代码:https://github.com/Y-Research-SBU/PosterGen