SigLIP 2:具有改进的语义理解、定位和密集特征的多语言视觉-语言编码器

02月20日发表
04月12日由 AKAK 提交
作者: Michael TschannenMichael Tschannen, Alexey GritsenkoAlexey Gritsenko, Xiao Wang, Muhammad Ferjad NaeemMuhammad Ferjad Naeem, Ibrahim AlabdulmohsinIbrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan EvansTalfan Evans, Lucas BeyerLucas Beyer, Ye Xia, Basil MustafaBasil Mustafa, Olivier HenaffOlivier Hénaff, Jeremiah HarmsenJeremiah Harmsen, Andreas Steiner, Xiaohua ZhaiXiaohua Zhai

摘要

我们推出了 SigLIP 2,这是一个新的多语言视觉-语言编码器系列,它建立在原始 SigLIP 的成功之上。在第二次迭代中,我们将原始的图像-文本训练目标与几个先前独立开发的技术统一到一个配方中——这包括基于字幕的预训练、自监督损失(自蒸馏、掩码预测)和在线数据管理。通过这些改变,SigLIP 2 模型在核心能力方面优于其 SigLIP 同类模型,包括零样本分类、图像-文本检索以及在为视觉-语言模型 (VLM) 提取视觉表示时的迁移性能。此外,新的训练配方显着提高了定位和密集预测任务的性能。我们还训练了支持多种分辨率并保留输入原始纵横比的变体。最后,我们训练了一个更多样化的数据混合,其中包括去偏见技术,从而大大提高了多语言理解和公平性。为了让用户在推理成本和性能之间进行权衡,我们发布了四种尺寸的模型检查点:ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。

评论

Han TruongHan Truong
此评论已隐藏。
Antonio NocerinoAntonio Nocerino

这真是太棒了!感谢您分享这项工作。

Franco MarchesoniFranco Marchesoni

没有与 dinov2reg 或其他 SSL 主干网络针对视觉任务进行比较...

Yu_xmYu_xm

“当使用独立的 GemmaTokenizerFast 时,请确保传递 padding="maxlength" 和 maxlength=64,因为模型就是这样训练的。” Siglip2 支持更长的文本输入吗?如果 max_length 设置为 256 或 512,文本超过 64 个字符会被截断吗?

Daniel BourkeDaniel Bourke

杰出的发布!非常感谢您提供的所有不同变体。SigLIP 是我最常用的模型之一,很高兴看到全面的良好更新。