潜在去噪造就优秀的视觉分词器

发表
Jiawei YangJiawei Yang 提交
作者: Jiawei Yang, Tianhong Li, Lijie Fan, Yonglong Tian, Yue Wang

摘要

尽管视觉分词器扮演着基础性角色,但目前仍不清楚哪些特性能够使其在生成建模中更有效。我们观察到,现代生成模型共享一个概念上相似的训练目标——从高斯噪声或掩蔽等受损输入中重建干净信号——我们称之为去噪(denoising)。受此启发,我们提出将分词器嵌入(tokenizer embeddings)直接与下游去噪目标对齐,以鼓励潜在嵌入(latent embeddings)即使在严重受损的情况下也能更容易地被重建。为实现这一目标,我们引入了潜在去噪分词器(Latent Denoising Tokenizer, l-DeTok),这是一种简单而有效的分词器,经过训练,能够从被插值噪声和随机掩蔽损坏的潜在嵌入中重建清晰图像。在ImageNet 256x256上的大量实验表明,我们的分词器在六种代表性生成模型上始终优于标准分词器。我们的发现强调了去噪作为分词器开发的基本设计原则,我们希望这能为未来的分词器设计提供新的视角。
查看 arXiv 页面查看 PDF

评论

Jiawei YangJiawei Yang
论文提交者

尽管视觉分词器扮演着基础性角色,但目前尚不清楚哪些属性能使其在生成建模中更有效。我们观察到,现代生成模型共享一个概念上相似的训练目标——从高斯噪声或掩码等损坏输入中重建干净信号——我们称之为去噪。受此启发,我们提出将分词器嵌入直接与下游去噪目标对齐,鼓励潜在嵌入即使在严重损坏的情况下也更容易重建。为实现这一目标,我们引入了潜在去噪分词器 (l-DeTok),这是一种简单而有效的模型,通过重建从插值噪声和随机掩码损坏的潜在嵌入中得到的干净图像来训练。ImageNet 256x256 上的大量实验表明,我们的分词器在六种代表性生成模型中始终优于标准分词器。我们的发现强调了去噪作为分词器开发的基本设计原则,我们希望它能为未来分词器设计带来新视角。