⏶142

SigLIP 2：具有改进的语义理解、定位和密集特征的多语言视觉-语言编码器

02月20日发表

04月12日由

AK 提交

作者:

Michael Tschannen,

Alexey Gritsenko, Xiao Wang,

Muhammad Ferjad Naeem,

Ibrahim Alabdulmohsin, Nikhil Parthasarathy,

Talfan Evans,

Lucas Beyer, Ye Xia,

Basil Mustafa, Olivier Henaff

Olivier Hénaff,

Jeremiah Harmsen, Andreas Steiner,

Xiaohua Zhai

摘要

我们推出了 SigLIP 2，这是一个新的多语言视觉-语言编码器系列，它建立在原始 SigLIP 的成功之上。在第二次迭代中，我们将原始的图像-文本训练目标与几个先前独立开发的技术统一到一个配方中——这包括基于字幕的预训练、自监督损失（自蒸馏、掩码预测）和在线数据管理。通过这些改变，SigLIP 2 模型在核心能力方面优于其 SigLIP 同类模型，包括零样本分类、图像-文本检索以及在为视觉-语言模型 (VLM) 提取视觉表示时的迁移性能。此外，新的训练配方显着提高了定位和密集预测任务的性能。我们还训练了支持多种分辨率并保留输入原始纵横比的变体。最后，我们训练了一个更多样化的数据混合，其中包括去偏见技术，从而大大提高了多语言理解和公平性。为了让用户在推理成本和性能之间进行权衡，我们发布了四种尺寸的模型检查点：ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。

查看 arXiv 页面查看 PDF

论文提交者

https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/image_text/README_siglip2.md

Han Truong

此评论已隐藏。

Antonio Nocerino

这真是太棒了！感谢您分享这项工作。

Franco Marchesoni

没有与 dinov2reg 或其他 SSL 主干网络针对视觉任务进行比较...

Yu_xm

“当使用独立的 GemmaTokenizerFast 时，请确保传递 padding="maxlength" 和 maxlength=64，因为模型就是这样训练的。” Siglip2 支持更长的文本输入吗？如果 max_length 设置为 256 或 512，文本超过 64 个字符会被截断吗？

Daniel Bourke

杰出的发布！非常感谢您提供的所有不同变体。SigLIP 是我最常用的模型之一，很高兴看到全面的良好更新。