⏶7
RePrompt: 用于文本到图像生成的推理增强重复提示,通过强化学习
发表
由
Mingrui Wu 提交
作者: Mingrui Wu, Lu Wang, Pu Zhao, Fangkai Yang, Jianjin Zhang, Jianfeng Liu, Yuefeng Zhan, Weihao Han, Hao Sun, Jiayi Ji, Xiaoshuai Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang, Rongrong Ji
摘要
尽管文本到图像 (T2I) 生成取得了最新进展,但现有模型通常难以忠实地捕捉用户在简短且不够明确的提示中的意图。虽然先前的工作尝试使用大型语言模型 (LLM) 来增强提示,但这些方法由于在视觉语义和现实世界构图方面的基础不足,常常生成风格化或不真实的内容。受语言模型推理最新进展的启发,我们提出了 RePrompt,这是一个新颖的重新提示框架,它通过强化学习将显式推理引入提示增强过程。我们的方法不依赖于手工规则或风格化重写,而是通过优化图像层面的结果来训练语言模型生成结构化、自反思的提示。定制的奖励模型从人类偏好、语义对齐和视觉构图等方面评估生成的图像,为改进提示生成提供间接监督。我们的方法支持无需人工标注数据的端到端训练。在 GenEval 和 T2I-Compbench 上的实验表明,RePrompt 显著提高了不同 T2I 骨干网络的空间布局保真度和构图泛化能力,建立了新的最先进成果。
一个 T2I 推理模型。
代码: https://github.com/microsoft/DKI_LLM/tree/main/RePrompt.