⏶142
SigLIP 2:具有改进的语义理解、定位和密集特征的多语言视觉-语言编码器
02月20日发表
04月12日由
AK 提交

作者:
Michael Tschannen,
Alexey Gritsenko, Xiao Wang,
Muhammad Ferjad Naeem,
Ibrahim Alabdulmohsin, Nikhil Parthasarathy,
Talfan Evans,
Lucas Beyer, Ye Xia,
Basil Mustafa,
Olivier Hénaff,
Jeremiah Harmsen, Andreas Steiner,
Xiaohua Zhai



摘要
我们推出了 SigLIP 2,这是一个新的多语言视觉-语言编码器系列,它建立在原始 SigLIP 的成功之上。在第二次迭代中,我们将原始的图像-文本训练目标与几个先前独立开发的技术统一到一个配方中——这包括基于字幕的预训练、自监督损失(自蒸馏、掩码预测)和在线数据管理。通过这些改变,SigLIP 2 模型在核心能力方面优于其 SigLIP 同类模型,包括零样本分类、图像-文本检索以及在为视觉-语言模型 (VLM) 提取视觉表示时的迁移性能。此外,新的训练配方显着提高了定位和密集预测任务的性能。我们还训练了支持多种分辨率并保留输入原始纵横比的变体。最后,我们训练了一个更多样化的数据混合,其中包括去偏见技术,从而大大提高了多语言理解和公平性。为了让用户在推理成本和性能之间进行权衡,我们发布了四种尺寸的模型检查点:ViT-B (86M)、L (303M)、So400m (400M) 和 g (1B)。
https://github.com/google-research/big_vision/blob/main/big_vision/configs/proj/image_text/README_siglip2.md