OneReward:通过多任务人类偏好学习实现统一的蒙版引导图像生成

发表
Xionghui WangXionghui Wang 提交
作者: Yuan Gong, Xionghui WangXionghui Wang, wujie10558@gmail.comJie Wu, Shiyin Wang, Yitong Wang, Xinglong Wu

摘要

在本文中,我们介绍了 OneReward,这是一个统一的强化学习框架,仅使用一个奖励模型即可提高模型在不同评估标准下的多任务生成能力。通过使用单个视觉语言模型 (VLM) 作为生成奖励模型,该模型可以区分给定任务和给定评估标准的获胜者和失败者,它可以有效地应用于多任务生成模型,特别是在数据多样和任务目标各异的情况下。我们将 OneReward 用于掩码引导图像生成,该生成可进一步细分为几个子任务,例如图像填充、图像扩展、对象移除和文本渲染,其中涉及一个二值掩码作为编辑区域。尽管这些特定领域的任务共享相同的条件范式,但它们在底层数据分布和评估指标上存在显著差异。现有方法通常依赖于特定任务的监督微调 (SFT),这限制了泛化能力和训练效率。基于 OneReward,我们开发了 Seedream 3.0 Fill,这是一个通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型,无需特定任务的 SFT。实验结果表明,我们的统一编辑模型在多个评估维度上始终优于商业和开源竞争对手,例如 Ideogram、Adobe Photoshop 和 FLUX Fill [Pro]。代码和模型可在以下网址获取:https://one-reward.github.io
查看 arXiv 页面查看 PDF

评论

Xionghui WangXionghui Wang
论文作者
论文提交者
此评论已隐藏。
Xionghui WangXionghui Wang
论文作者
论文提交者
此评论已隐藏。
Xionghui WangXionghui Wang
论文作者
论文提交者

项目网址:https://one-reward.github.io/

包含强化学习(RL)方法和Seedream 3.0技术报告

image.png

image.png

image.png