PaliGemma:用于迁移的多功能 3B VLM

07月10日发表
04月12日由 AKAK 提交
作者: Lucas BeyerLucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz, Maxim NeumannMaxim Neumann, Ibrahim AlabdulmohsinIbrahim Alabdulmohsin, Michael TschannenMichael Tschannen, Emanuele BugliarelloEmanuele Bugliarello, Thomas Unterthiner, Daniel KeysersDaniel Keysers, Skanda KoppulaSkanda Koppula, Fangyu LiuFangyu Liu, Adam Grycner, Alexey GritsenkoAlexey Gritsenko, Neil HoulsbyNeil Houlsby, Manoj Kumar, KeranKeran Rong, Julian EisenschlosJulian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias MindererMatthias Minderer, Paul Voigtlaender, Ioana BicaIoana Bica, Ivana Balazevic, Joan PuigcerverJoan Puigcerver, Pinelopi Papalampidi, Olivier HenaffOlivier Henaff, Xi XiongXi Xiong, Radu Soricut, Jeremiah HarmsenJeremiah Harmsen, Xiaohua ZhaiXiaohua Zhai

摘要

PaliGemma 是一个开放的视觉-语言模型 (VLM),它基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。它被训练成为一个多功能且知识广泛的基础模型,可以有效地进行迁移。它在各种开放世界任务中都取得了出色的性能。我们评估了 PaliGemma 在近 40 个不同的任务上的性能,包括标准 VLM 基准测试,以及更专业的任务,例如遥感和分割。

评论

AKAK
论文提交者

Screen Shot 2024-07-10 at 10.55.19 PM.png

Merve NoyanMerve Noyan

也请阅读 hf.co/blog/paligemma

Jeremy PintoJeremy Pinto

微调后的模型是否将在 huggingface 上提供?