⏶70
OmniGen2:探索高级多模态生成
发表
由
JUNJIE ZHOU 提交
作者:
Chenyuan Wu, Pengfei Zheng,
Ruiran Yan,
Shitao Xiao,
Xin Luo,
Yueze Wang,
Wanli Li,
Xiyan Jiang, Yexin Liu,
Junjie Zhou,
Ze Liu,
Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang,
Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
摘要
在这项工作中,我们推出了OmniGen2,这是一个多功能、开源的生成模型,旨在为包括文本到图像、图像编辑和上下文生成在内的多样化生成任务提供统一解决方案。与OmniGen v1不同,OmniGen2为文本和图像模态设计了两个独立的解码路径,采用非共享参数和解耦的图像分词器。这种设计使OmniGen2能够在现有多模态理解模型的基础上构建,而无需重新适应VAE输入,从而保留了原始的文本生成能力。为了促进OmniGen2的训练,我们开发了全面的数据构建管道,包括图像编辑和上下文生成数据。此外,我们引入了一种专为图像生成任务定制的反思机制,并基于OmniGen2策划了一个专用的反思数据集。尽管其参数规模相对适中,OmniGen2在包括文本到图像和图像编辑在内的多个任务基准上取得了有竞争力的结果。为了进一步评估上下文生成(也称为主题驱动任务),我们引入了一个名为OmniContext的新基准。OmniGen2在开源模型中以一致性方面取得了最先进的性能。我们将发布我们的模型、训练代码、数据集和数据构建管道,以支持该领域的未来研究。项目页面:https://vectorspacelab.github.io/OmniGen2;GitHub链接:https://github.com/VectorSpaceLab/OmniGen2
评论
本文的音频解读在此 👉 https://arxivexplained.com/papers/omnigen2-exploration-to-advanced-multimodal-generation
https://github.com/VectorSpaceLab/OmniGen2