⏶47
GigaTok:扩展视觉标记器至30亿参数,用于自回归图像生成
04月11日发表
04月14日由
Tianwei Xiong 提交

作者:
Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng,
Xihui Liu

摘要
在自回归 (AR) 图像生成中,视觉 tokenizer 将图像压缩成紧凑的离散潜在 tokens,从而能够通过下一个 token 预测,高效地训练用于视觉生成的下游自回归模型。虽然扩展视觉 tokenizer 可以提高图像重建质量,但它通常会降低下游生成质量——现有文献中尚未充分解决这一挑战。为了解决这个问题,我们推出了 GigaTok,这是第一个在扩展视觉 tokenizer 时,同时改进图像重建、生成和表征学习的方法。我们认为潜在空间日益增长的复杂性是重建与生成困境背后的关键因素。为了缓解这个问题,我们提出了语义正则化,它将 tokenizer 特征与来自预训练视觉编码器的语义一致特征对齐。这种约束防止了扩展过程中过度的潜在空间复杂性,从而在重建和下游自回归生成方面都实现了持续改进。在语义正则化的基础上,我们探索了扩展 tokenizer 的三个关键实践:(1)使用 1D tokenizer 以获得更好的可扩展性,(2)在扩展编码器和解码器时优先考虑解码器扩展,以及(3)采用熵损失来稳定十亿级规模 tokenizer 的训练。通过扩展到 30 亿空间参数,GigaTok 在重建、下游 AR 生成和下游 AR 表征质量方面均取得了最先进的性能。
项目页面:https://silentview.github.io/GigaTok/
代码和检查点: https://github.com/SilentView/GigaTok