⏶23
Token-Shuffle:利用自回归模型实现高分辨率图像生成
发表
由
AK 提交

作者: Xu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu
摘要
自回归 (AR) 模型长期主导语言生成领域,正越来越多地应用于图像合成,但通常被认为不如基于扩散的模型具有竞争力。主要限制在于 AR 模型所需的图像 token 数量巨大,这限制了训练和推理效率以及图像分辨率。为了解决这个问题,我们提出了 Token-Shuffle,一种新颖而简单的方法,它减少了 Transformer 中的图像 token 数量。我们的关键洞察是多模态大语言模型 (MLLM) 中视觉词汇的维度冗余,其中来自视觉编码器的低维视觉码被直接映射到高维语言词汇。利用这一点,我们考虑了两个关键操作:token-shuffle,它沿着通道维度合并空间上局部的 token 以减少输入的 token 数量;以及 token-unshuffle,它在 Transformer 块之后解开推理出的 token 以恢复输出的空间排列。与文本提示联合训练,我们的策略不需要额外的预训练文本编码器,并使 MLLM 能够以统一的下一个 token 预测方式支持极高分辨率的图像合成,同时保持高效的训练和推理。首次,我们将 AR 文本到图像生成的边界推进到 2048x2048 的分辨率,并取得了令人满意的生成性能。在 GenAI-benchmark 中,我们的 2.7B 模型在困难提示上获得了 0.77 的总体得分,超过 AR 模型 LlamaGen 0.18 分,并超过扩散模型 LDM 0.15 分。大规模详尽的人工评估也证明了我们在文本对齐、视觉缺陷和视觉外观方面的卓越图像生成能力。我们希望 Token-Shuffle 能够成为 MLLM 中高效高分辨率图像生成的基础设计。
评论

论文提交者
有趣的工作!
我认为“toke-shuffling”和“token-unshuffling”的概念类似于拼图求解策略。
几年前,我们使用了一种类似的策略,将每个图像块的输出特征沿着通道维度拼接,以防止在预训练阶段学习到冗余的表示。然而,我们的工作 [1,2] 的重点是在下游任务中,从膝关节 MR 扫描数据中学习用于膝关节损伤诊断的表示。
参考文献:
[1] S. Manna, S. Bhattacharya, U. Pal, "Self-supervised representation learning for detection of ACL tear injury in knee MR videos," Pattern Recognition Letters, Volume 154, 2022, Pages 37-43, https://doi.org/10.1016/j.patrec.2022.01.008.
[2] S. Manna, S. Bhattacharya and U. Pal, "Self-Supervised Representation Learning for Knee Injury Diagnosis From Magnetic Resonance Data," in IEEE Transactions on Artificial Intelligence, vol. 5, no. 4, pp. 1613-1623, April 2024, doi: 10.1109/TAI.2023.3299883.