⏶57
UniWorld:用于统一视觉理解与生成的高分辨率语义编码器
发表
由
YSH 提交

作者:
Bin Lin,
Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He,
Shenghai Yuan, Wangbo Yu, Shaodong Wang,
Yunyang Ge, Yatian Pang, Li Yuan




摘要
尽管现有统一模型在视觉-语言理解和文本到图像生成方面表现出色,但它们在探索图像感知和操作任务方面受到限制,而这些任务是用户广泛应用迫切需要的。最近,OpenAI 发布了其强大的 GPT-4o-Image 模型,用于全面的图像感知和操作,实现了富有表现力的能力并引起了社区的兴趣。通过观察 GPT-4o-Image 在我们精心构建的实验中的表现,我们推断 GPT-4o-Image 利用了语义编码器而非 VAE 提取的特征,尽管 VAE 被认为是许多图像操作模型中的基本组件。受这些启发性观察的启发,我们提出了一种名为 UniWorld 的统一生成框架,该框架基于强大的视觉-语言模型和对比语义编码器提供的语义特征。因此,我们仅使用 BAGEL 数据量的 1% 构建了一个强大的统一模型,该模型在图像编辑基准上持续优于 BAGEL。UniWorld 还保持了有竞争力的图像理解和生成能力,在多种图像感知任务上取得了优异的表现。我们完全开源了我们的模型,包括模型权重、训练和评估脚本以及数据集。
代码: https://github.com/PKU-YuanGroup/UniWorld-V1
数据集: https://huggingface.co/datasets/LanguageBind/UniWorld-V1
演示1: http://8.130.165.159:8800/
演示2: http://8.130.165.159:8801/