⏶139
NextStep-1:迈向具有连续标记的大规模自回归图像生成
发表
由
Yuang Peng 提交

作者: NextStep Team, Chunrui Han, Guopeng Li,
Jingwei Wu, Quan Sun, Yan Cai,
Yuang Peng, Zheng Ge, Deyu Zhou,
Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu


摘要
当前主流的用于文本到图像生成的自回归(AR)模型,要么依赖于计算密集型的大型扩散模型来处理连续的图像词元,要么采用矢量量化(VQ)来获取离散词元但会产生量化损失。在本文中,我们通过 NextStep-1 推动了自回归范式的发展。NextStep-1 是一个 140 亿参数的自回归模型,配备了一个 1.57 亿参数的流匹配头,它在离散的文本词元和连续的图像词元上,使用下一词元预测目标进行训练。NextStep-1 在文本到图像生成任务中达到了自回归模型的顶尖性能,展现出强大的高保真图像合成能力。此外,我们的方法在图像编辑方面也表现出色,突显了我们统一方法的强大功能和多功能性。为了促进开放研究,我们将向社区发布我们的代码和模型。
评论
论文作者
NextStep-1-Large-Edit 的 Hugging Face Space 现已在 https://huggingface.co/spaces/stepfun-ai/NextStep-1-Large-Edit 上线。
这篇论文的 arXiv 解释性解读 👉 https://arxivexplained.com/papers/nextstep-1-toward-autoregressive-image-generation-with-continuous-tokens-at-scale
主页:https://stepfun.ai/research/en/nextstep1 (即将推出)
Github:https://github.com/stepfun-ai/NextStep-1
Huggingface:NextStep-1 Collections