⏶69
Ming-UniVision:使用统一的连续分词器联合进行图像理解和生成
发表
由
zheng 提交
作者:
Ziyuan Huang,
DanDan Zheng,
Cheng Zou, Rui Liu,
Xiaolong Wang,
Kaixiang Ji,
Weilong Chai, Jianxin Sun,
Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu,
Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou

摘要
AI 生成总结
MingTok 是一个连续的潜在空间视觉分词器,在自回归框架内统一了视觉-语言理解和生成,在两个领域都取得了最先进的性能。视觉令牌化仍然是统一自回归范式中的视觉理解和生成的核心挑战。现有方法通常在离散的潜在空间中使用令牌化器,以与大型语言模型的令牌保持一致,其中量化误差会限制语义表达能力并降低视觉-语言理解的能力。为了解决这个问题,我们提出了 MingTok,一种具有连续潜在空间的新型视觉令牌化器家族,用于统一的自回归生成和理解。理解任务偏好判别性高维特征,而生成任务偏好紧凑的低级代码。因此,为了协调这些相互冲突的需求,MingTok 采用了一个三阶段顺序架构,包括低级编码、语义扩展和视觉重建。在此基础上,Ming-UniVision 消除了对特定任务视觉表示的需求,并在单个自回归预测范式下统一了各种视觉-语言任务。通过将理解和生成都表述为共享连续空间中的下一个令牌预测,它可以无缝支持多轮、上下文内任务,如迭代理解、生成和编辑。在实践中,我们发现使用统一的连续视觉表示可以协调理解和生成任务对令牌化器的相互冲突的需求,从而在两个领域都实现最先进的性能。我们希望我们的发现能够促进连续域中的统一视觉令牌化。推理代码和模型权重已发布,以造福社区。
推出Ming-UniVision & MingTok — 首个在连续统一表示空间中原生统一视觉理解与生成的自回归模型。
代码:https://github.com/inclusionAI/Ming-UniVision
博客:https://inclusionai.github.io/blog/mingtok/
Modelscope:https://www.modelscope.cn/models/inclusionAI/Ming-UniVision-16B-A3B
Huggingface:https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B