⏶3
TokBench:在视觉生成前评估您的视觉分词器
发表
由
Junfeng Wu 提交
作者: Junfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai
摘要
在这项工作中,我们揭示了视觉编码器(tokenizers)和变分自编码器(VAEs)在保留精细特征方面的局限性,并提出了一个基准来评估两种具有挑战性的视觉内容的重建性能:文本和人脸。视觉编码器和 VAE 通过提供更高效的压缩或量化图像表示,显著推动了视觉生成和多模态建模的发展。然而,尽管有助于生产模型降低计算负担,但图像压缩带来的信息损失从根本上限制了视觉生成质量的上限。为了评估这个上限,我们专注于评估重建的文本和人脸特征,因为它们通常:1)存在于更小的尺度上,2)包含密集且丰富的纹理,3)容易崩溃,以及 4)对人类视觉高度敏感。我们首先从现有数据集中收集并整理了一组多样化的清晰文本和人脸图像。与使用 VLM 模型的方法不同,我们采用成熟的光学字符识别(OCR)和人脸识别模型进行评估,确保准确性,同时保持一个极其轻量级的评估过程,<span style="font-weight: bold; color: rgb(214, 21, 21);">只需 2GB 内存和 4 分钟</span>即可完成。使用我们的基准,我们分析了不同图像编码器和 VAE 在不同尺度上的文本和人脸重建质量。我们的结果显示,现代视觉编码器仍然难以保留精细特征,尤其是在较小的尺度上。我们进一步将此评估框架扩展到视频,对视频编码器进行了全面分析。此外,我们证明了传统指标无法准确反映人脸和文本的重建性能,而我们提出的指标可作为有效的补充。


TokBench 是一个高效的基准测试工具,专门设计用于评估文本和人脸的重建质量。因为一个未能准确重建精细视觉特征的视觉分词器/VAE也会损害下游生成模型,TokBench 利用 OCR 和人脸识别模型快速评估文本和人脸的重建性能。它提供了图像和视频评估数据集,并且非常高效,评估 12,000 张图像 仅需 2GB 存储空间 + 4 分钟。
使用 TokBench 作为你的 分词器/VAE 选择指南 并快速迭代你的模型!🚀
主页:https://wjf5203.github.io/TokBench