Qwen-Image 技术报告

发表
Xiao XuXiao Xu 提交
作者: Chenfei Wu, Jiahao LiJiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun YanKun Yan, Sheng-ming Yin, Shuai Bai, Xiao XuXiao Xu, Yilei Chen, ChenYuxiang Chen, Zecheng TangZecheng Tang, Zekai Zhang, Zhengyi WangZhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng LiuDayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu

摘要

我们推出了 Qwen 系列中的图像生成基础模型 Qwen-Image,它在复杂文本渲染和精确图像编辑方面取得了显著进展。为了解决复杂文本渲染的挑战,我们设计了一个全面的数据管线,包括大规模数据收集、过滤、标注、合成和平衡。此外,我们采用渐进式训练策略,从非文本到文本渲染开始,从简单到复杂的文本输入演进,并逐步扩展到段落级别的描述。这种课程学习方法大大增强了模型原生的文本渲染能力。因此,Qwen-Image 不仅在英语等字母语言中表现出色,还在中文等更具挑战性的表意语言上取得了显著进展。为了增强图像编辑的一致性,我们引入了一种改进的多任务训练范式,该范式不仅包含传统的文本到图像(T2I)和文本图像到图像(TI2I)任务,还包含图像到图像(I2I)重建,有效对齐了 Qwen2.5-VL 和 MMDiT 之间的潜在表示。此外,我们分别将原始图像输入到 Qwen2.5-VL 和 VAE 编码器,以分别获得语义和重建表示。这种双编码机制使编辑模块能够在保持语义一致性和视觉保真度之间取得平衡。Qwen-Image 在多项基准测试中取得了最先进的性能,展示了其在图像生成和编辑方面的强大能力。
查看 arXiv 页面查看 PDF
Qwen-Image 技术报告
Qwen-Image 技术报告

评论