⏶49
Lumina-DiMOO:用于多模态生成和理解的全方位扩散大型语言模型
发表
由
taesiri 提交

作者: Yi Xin,
Qi Qin, Siqi Luo, Kaiwen Zhu, Juncheng Yan, Yan Tai,
Jiayi Lei, Yuewen Cao, Keqi Wang, Yibin Wang,
Jinbin Bai, Qian Yu, Dengyang Jiang, Yuandong Pu, Haoxing Chen, Le Zhuo, Junjun He, Gen Luo, Tianbin Li, Ming Hu, Jin Ye, Shenglong Ye, Bo Zhang, Chang Xu, Wenhai Wang, Hongsheng Li, Guangtao Zhai, Tianfan Xue, Bin Fu, Xiaohong Liu, Yu Qiao, Yihao Liu

摘要
AI 生成总结
Lumina-DiMOO 是一个开源的基础模型,它使用完全离散的扩散建模进行高效的多模态生成和理解,性能优于现有模型。我们推出了 Lumina-DiMOO,一个开源的、用于无缝多模态生成和理解的基础模型。Lumina-DiMOO 通过利用完全离散的扩散建模来处理各种模态的输入和输出,从而使其区别于先前统一的模型。这种创新的方法使得 Lumina-DiMOO 能够实现比以前的自回归(AR)或 AR-扩散混合范式更高的采样效率,并能熟练地支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(例如,图像编辑、主题驱动生成和图像修复等),以及图像理解。Lumina-DiMOO 在多个基准测试上取得了最先进的性能,优于现有的开源统一多模态模型。为了促进多模态和离散扩散模型研究的进一步发展,我们将代码和检查点发布给社区。项目页面:https://synbol.github.io/Lumina-DiMOO。
我们推出了 Lumina-DiMOO,这是一个用于无缝多模态生成和理解的开源基础模型。Lumina-DiMOO 与之前的统一模型不同之处在于,它使用了完全离散的扩散建模来处理各种模态的输入和输出。这种创新的方法使 Lumina-DiMOO 相比之前的自回归(AR)或混合 AR-扩散范式具有更高的采样效率,并能熟练支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(例如,图像编辑、主体驱动生成和图像修复等),以及图像理解。Lumina-DiMOO 在多个基准上取得了最先进的性能,超越了现有的开源统一多模态模型。为了促进多模态和离散扩散模型研究的进一步发展,我们将代码和检查点发布给社区。