天工 UniPic:用于视觉理解和生成的统一自回归模型

发表
Peiyu WangPeiyu Wang 提交
作者: Peiyu WangPeiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang WeiHongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

摘要

我们推出了 Skywork UniPic,一个拥有 15 亿参数的自回归模型,它在单一架构内统一了图像理解、文本到图像生成和图像编辑功能,无需使用特定任务的适配器或模块间连接器,并证明了紧凑的多模态系统可以在消费级硬件上达到业界顶尖的性能。Skywork UniPic 的 GenEval 得分为 0.86,超过了大多数现有的统一模型;在 DPG-Bench 复杂生成任务上创下了 85.5 的新纪录;在 GEditBench-EN 和 ImgEdit-Bench 图像编辑任务上分别取得了 5.83 和 3.49 的分数;并且能用低于 15 GB 的 GPU 显存(例如 RTX 4090)生成 1024 x 1024 分辨率的图像。(1) 一种解耦编码策略,利用掩码自回归编码器进行合成,利用 SigLIP2 编码器进行理解,所有信息都输入一个共享的自回归解码器;(2) 一种从 256 x 256 逐步扩展到 1024 x 1024 的、感知分辨率的训练方案,同时动态解冻参数以平衡模型容量和稳定性;(3) 精心筛选的、规模达一亿的数据集,并辅以特定任务的奖励模型,以优化生成和编辑目标。通过证明高保真度的多模态集成无需巨大的资源投入,Skywork UniPic 为可部署的高保真多模态人工智能建立了一个实用的范例。代码和权重已在 https://huggingface.co/Skywork/Skywork-UniPic-1.5B 公开发布。
查看 arXiv 页面查看 PDF

评论

Peiyu WangPeiyu Wang
论文作者
论文提交者

截屏2025-08-06 11.26.28.png

用于视觉理解和生成的统一自回归建模。

UniPic-V2 (DiT-edition) 正在开发中——绝对值得期待!