⏶28

Show-o2: 改进的原生统一多模态模型

06月18日发表

06月20日由 AK 提交

作者: Jinheng Xie, Zhenheng Yang, Mike Zheng Shou

摘要

本文提出了改进的本土统一多模态模型，即 Show-o2，这些模型利用自回归建模和流匹配。这些模型构建于一个3D因果变分自编码器空间之上，通过空间（-时间）融合的双路径构建统一的视觉表示，从而实现在图像和视频模态间的可扩展性，同时确保有效的多模态理解和生成。基于语言模型，自回归建模和流匹配分别原生应用于语言头部和流头部，以促进文本标记预测和图像/视频生成。本文设计了一种两阶段训练方案，以有效地学习并扩展到更大的模型。最终的Show-o2模型在处理跨文本、图像和视频等多种模态的广泛多模态理解和生成任务方面展现出多功能性。代码和模型已在 https://github.com/showlab/Show-o 发布。

查看 arXiv 页面查看 PDF

论文提交者

Show-o2: 改进的原生统一多模态模型

摘要

评论