⏶59
Ovis-U1 技术报告
发表
由
Guo-Hua Wang 提交

作者:
Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen

摘要
在本报告中,我们介绍了 Ovis-U1,一个包含 30 亿参数的统一模型,它集成了多模态理解、文本到图像生成和图像编辑能力。Ovis-U1 基于 Ovis 系列的基础之上,结合了基于扩散的视觉解码器和双向 token 细化器,使图像生成任务可与 GPT-4o 等领先模型相媲美。与一些使用冻结 MLLM 进行生成任务的先前模型不同,Ovis-U1 采用了一种新的统一训练方法,从语言模型开始。与仅训练理解或生成任务相比,统一训练产生了更好的性能,证明了集成这两个任务所带来的增强。Ovis-U1 在 OpenCompass 多模态学术基准测试中获得了 69.6 的分数,超过了最近最先进的模型,如 Ristretto-3B 和 SAIL-VL-1.5-2B。在文本到图像生成方面,它在 DPG-Bench 和 GenEval 基准测试中分别取得了 83.72 和 0.89 的出色分数。对于图像编辑,它在 ImgEdit-Bench 和 GEdit-Bench-EN 上分别实现了 4.00 和 6.42。作为 Ovis 统一模型系列的初始版本,Ovis-U1 推动了多模态理解、生成和编辑的边界。
代码和模型已发布:
https://github.com/AIDC-AI/Ovis-U1
https://huggingface.co/AIDC-AI/Ovis-U1-3B
https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B