⏶26
Ming-Omni:一个用于感知和生成的统一多模态模型
发表
由
Biao Gong 提交

作者: Inclusion AI,
Biao Gong, Cheng Zou,
Chuanyang Zheng, Chunluan Zhou, Canxiang Yan, Chunxiang Jin, Chunjie Shen,
Dandan Zheng,
Fudong Wang,
Furong Xu, GuangMing Yao, Jun Zhou, Jingdong Chen, Jianxin Sun, Jiajia Liu, Jianjiang Zhu, Jun Peng, Kaixiang Ji, Kaiyou Song, Kaimeng Ren, Libin Wang, Lixiang Ru, Lele Xie, Longhua Tan, Lyuxin Xue, Lan Wang, Mochen Bai, Ning Gao, Pei Chen, Qingpei Guo, Qinglong Zhang, Qiang Xu, Rui Liu, Ruijie Xiong, Sirui Gao, Tinghao Liu, Taisong Li, Weilong Chai, Xinyu Xiao, Xiaomei Wang, Xiaoxue Chen, Xiao Lu, Xiaoyu Li, Xingning Dong, Xuzheng Yu, Yi Yuan, Yuting Gao, Yunxiao Sun, Yipeng Chen, Yifei Wu, Yongjie Lyu,
Ziping Ma, Zipeng Feng, Zhijiang Fang, Zhihao Qiu, Ziyuan Huang,
Zhengyu He


摘要
我们提出了 Ming-Omni,一个统一的多模态模型,能够处理图像、文本、音频和视频,同时在语音和图像生成方面表现出强大的能力。Ming-Omni 采用专用编码器从不同模态中提取 token,然后由 Ling(一个配备了新提出的模态特定路由器的 MoE 架构)进行处理。这种设计使得单个模型能够在统一框架内高效处理和融合多模态输入,从而在不需要单独模型、特定任务微调或结构重新设计的情况下,促进了各种任务的执行。重要的是,Ming-Omni 超越了传统的通用多模态模型,支持音频和图像生成。这是通过集成先进的音频解码器以实现自然流畅的语音以及 Ming-Lite-Uni 以实现高质量图像生成来实现的,这也使得该模型能够进行上下文感知聊天、执行文本到语音转换以及进行多功能图像编辑。我们的实验结果表明,Ming-Omni 为所有模态的统一感知和生成提供了强大的解决方案。值得注意的是,我们提出的 Ming-Omni 是我们所知的第一个在模态支持方面与 GPT-4o 媲美的开源模型,我们发布了所有代码和模型权重,以鼓励社区的进一步研究和开发。
代码:https://github.com/inclusionAI/Ming/tree/main
Huggingface:https://huggingface.co/inclusionAI/Ming-Lite-Omni
网页:https://lucaria-academy.github.io/Ming-Omni/