Ming-Lite-Uni:自然多模态交互统一架构的进展

发表
Biao GongBiao Gong 提交
作者: Biao GongBiao Gong, Cheng Zou, Dandan ZhengDandan Zheng, Hu Yu, chenjingdongJingdong Chen, jianxinsunJianxin Sun, Junbo Zhao, Jun Zhou, Kaixiang Ji, Lixiang Ru, Libin Wang, Qingpei Guo, Rui Liu, Weilong Chai, xinyu xiaoXinyu Xiao, Ziyuan Huang

摘要

我们介绍 Ming-Lite-Uni,这是一个开源多模态框架,其特点是新设计的统一视觉生成器和专为统一视觉与语言量身定制的原生多模态自回归模型。具体来说,本项目提供了集成 MetaQueries 和 M2-omni 框架的开源实现,同时引入了新颖的多尺度可学习 token 和多尺度表示对齐策略。通过利用固定的 MLLM 和可学习的扩散模型,Ming-Lite-Uni 使原生多模态自回归模型能够执行文本到图像生成和基于指令的图像编辑任务,将其能力扩展到纯粹的视觉理解之外。我们的实验结果展示了 Ming-Lite-Uni 的强大性能,并说明了其交互过程令人印象深刻的流畅性。所有代码和模型权重均已开源,以促进社区内的进一步探索。值得注意的是,这项工作与同时期的多模态 AI 里程碑(例如 2025 年 3 月 25 日更新的具有原生图像生成的 ChatGPT-4o)相吻合,强调了 Ming-Lite-Uni 等统一模型在迈向通用人工智能 (AGI) 道路上的更广泛意义。Ming-Lite-Uni 处于 Alpha 阶段,并将很快得到进一步完善。
查看 arXiv 页面查看 PDF

评论

Biao GongBiao Gong
论文作者
论文提交者

代码:https://github.com/inclusionAI/Ming/tree/main/Ming-unify