Seedream 4.0: 面向下一代多模态图像生成

发表
wujie10558@gmail.comwujie10558@gmail.com 提交
作者: Team Seedream, Yunpeng Chen, Yu Gao, Lixue GongLixue Gong, Meng Guo, Qiushan Guo, Zhiyao Guo, Xiaoxia Hou, Weilin Huang, Yixuan Huang, Xiaowen Jian, Huafeng Kuang, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yanzuo LuYanzuo Lu, Zhengxiong Luo, Tongtong Ou, Guang Shi, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xun Wang, Ye Wang, Guofeng Wu, wujie10558@gmail.comJie Wu, wuwenxuWenxu Wu, Yonghui Wu, Xin Xia, Xuefeng Xiao, Shuang Xu, Xin YanXin Yan, Ceyuan Yang, Jianchao Yang, Zhonghua Zhai, Chenlin Zhang, Heng Zhang, Qi Zhang, Xinyu Zhang, Yuwei Zhang, Shijia Zhao, Wenliang Zhao, Wenjia Zhu

摘要

AI 生成总结
Seedream 4.0 是一个高性能的多模态图像生成系统,它集成了文本到图像合成、图像编辑和多图像组合,使用了扩散变换器和 VAE,通过高效的训练和推理实现了最先进的结果。
我们介绍了Seedream 4.0,一个高效、高性能的多模态图像生成系统,它在一个框架内统一了文本到图像(T2I)合成、图像编辑和多图像合成。我们开发了一个高效的扩散Transformer和一个强大的VAE,后者还可以显著减少图像token的数量。这使得我们的模型能够高效训练,并能快速生成原生高分辨率图像(例如1K-4K)。Seedream 4.0在包含各种分类法和知识密集型概念的数十亿文本-图像对上进行了预训练。跨数百个垂直场景的全面数据收集,加上优化的策略,确保了稳定、大规模的训练,并具有强大的泛化能力。通过整合经过精心微调的VLM模型,我们对T2I和图像编辑任务进行了多模态后训练。为了加速推理,我们集成了对抗性蒸馏、分布匹配和量化,以及投机解码。它在生成2K图像时实现了高达1.8秒的推理时间(不使用LLM/VLM作为PE模型)。全面的评估显示,Seedream 4.0在T2I和多模态图像编辑方面均取得了最先进的成果。特别是,它在复杂任务中展现了卓越的多模态能力,包括精确的图像编辑和上下文推理,并且还允许多图像参考,并能生成多个输出图像。这使得传统的T2I系统演变为更具交互性和多维度的创意工具,推动了生成式AI在创意和专业应用方面的界限。Seedream 4.0现已在https://www.volcengine.com/experience/ark?launch=seedream 上提供。
查看 arXiv 页面查看 PDF

评论

wujie10558@gmail.comwujie10558@gmail.com
论文作者
论文提交者

Seedream 4.0 技术报告

ajaj

1758873278725-8d6d7b55-023c-45ee-80d5-817e9a4b8709

1758873478065-23110374-660b-4d55-af23-082bc630b7e6

Ayar LinAyar Lin

创作一只旭日猫。

Pankaj BagariyaPankaj Bagariya

汽车

MarlonMarlon

在堆栈和比特币上创建一只白猫

ChengyouJiaChengyouJia

您好,我最近注意到字节跳动发布了Seedream 4.0,这是一个令人印象深刻的作品。我对多图像输出能力特别感兴趣。在我们最近的论文《Why Settle for One? Text-to-ImageSet Generation and Evaluation》(https://arxiv.org/abs/2506.23275)中,我们提出了更具挑战性的文本到图像集(Text-to-ImageSet,T2IS)生成任务,旨在根据不同的连贯性要求生成一致的图像集。为了系统地研究这个问题,我们引入了T2IS-Bench(包含26个子类别,共596条多样化的指令)以及T2IS-Eval,一个用于多方面图像集级别连贯性评估的框架。考虑到这种重叠性,我们的基准测试和评估框架似乎特别适合评估Seedream 4.0中的多图像输入和复合编辑性能。我想知道您的团队是否注意到我们的工作,以及您是否有兴趣在这方面扩展实验。我非常乐意看到在这个主题上的潜在合作。我的邮箱是:cp3jia@stu.xjtu.edu.cn