⏶11
RL在自回归图像编辑中的前景
发表
由
Ankur Sikarwar 提交

作者:
Saba Ahmadi, Rabiul Awal,
Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal

摘要
我们探索了三种策略来提升图像编辑任务的性能:监督微调(SFT)、强化学习(RL)和思维链(CoT)推理。为了在一个统一的框架中研究所有这些组件,我们采用了一种自回归多模态模型,以统一的方式处理文本和视觉令牌。我们发现 RL 结合大型多模态 LLM 验证器是这些策略中最有效的。因此,我们发布了 EARL:使用自回归和 RL 进行编辑,一个强大的基于 RL 的图像编辑模型,尽管使用更少的训练数据,但在各种编辑方面与强大的基线相比表现出竞争力。因此,EARL 推动了自回归多模态模型在图像编辑领域的前沿。我们将在 https://github.com/mair-lab/EARL 发布我们的代码、训练数据和训练模型。
评论

论文作者
论文提交者