X-Omni:强化学习让离散自回归图像生成模型再次伟大

发表
Xiaosong ZhangXiaosong Zhang 提交
作者: Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, Qinglin Lu, Han Hu, Xiaosong Zhang, Linus, Di Wang, Jie Jiang

摘要

人们已经做出了许多努力来扩展“下一个token预测”的范式到视觉内容,旨在为图像生成和理解创建一个统一的方法。然而,通过自回归建模生成图像的方法一直受到各种问题的困扰,例如视觉保真度低、输出失真以及在渲染复杂细节时无法遵守复杂的指令。这些缺点可能归因于自回归推断过程中的累积误差或离散化过程中产生的信息损失。可能由于这个挑战,最近的研究越来越多地转向联合训练图像生成与扩散目标,以及语言生成与自回归目标,从而远离了统一建模方法。在这项工作中,我们证明了强化学习可以有效地缓解伪影并大大提高离散自回归建模方法的生成质量,从而实现图像和语言生成的无缝集成。我们的框架包括一个语义图像分词器,一个用于语言和图像的统一自回归模型,以及一个用于图像生成的离线扩散解码器,称为X-Omni。X-Omni在使用 7B 语言模型进行图像生成任务时实现了最先进的性能,产生了具有高美学质量的图像,同时表现出强大的遵循指令和渲染长文本的能力。
查看 arXiv 页面查看 PDF

评论

Xiaosong ZhangXiaosong Zhang
论文提交者

X-Omni 是一个统一的离散自回归模型,适用于图像和语言两种模态。 X-Omni 使用一个 70 亿参数的语言模型,在图像生成任务中取得了最先进的性能,生成的图像具有很高的美学质量,同时在遵循指令和渲染长文本方面表现出强大的能力。

Julien ChaumondJulien Chaumond

真是太酷了,谢谢分享。