⏶71
PaliGemma:用于迁移的多功能 3B VLM
07月10日发表
04月12日由
AK 提交

作者:
Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz,
Maxim Neumann,
Ibrahim Alabdulmohsin,
Michael Tschannen,
Emanuele Bugliarello, Thomas Unterthiner,
Daniel Keysers,
Skanda Koppula,
Fangyu Liu, Adam Grycner,
Alexey Gritsenko,
Neil Houlsby, Manoj Kumar,
Keran Rong,
Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen,
Matthias Minderer, Paul Voigtlaender,
Ioana Bica, Ivana Balazevic,
Joan Puigcerver, Pinelopi Papalampidi,
Olivier Henaff,
Xi Xiong, Radu Soricut,
Jeremiah Harmsen,
Xiaohua Zhai







摘要
PaliGemma 是一个开放的视觉-语言模型 (VLM),它基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。它被训练成为一个多功能且知识广泛的基础模型,可以有效地进行迁移。它在各种开放世界任务中都取得了出色的性能。我们评估了 PaliGemma 在近 40 个不同的任务上的性能,包括标准 VLM 基准测试,以及更专业的任务,例如遥感和分割。
评论

论文提交者

> 微调后的模型是否将在 huggingface 上提供?
我认为它已经可用了。
https://huggingface.co/collections/google/paligemma-release-6643a9ffbf57de2ae0448dda
https://huggingface.co/collections/google/paligemma-ft-models-6643b03efb769dad650d2dda