PaliGemma:用于迁移的多功能 3B VLM

发表
AKAK 提交
作者: Lucas BeyerLucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel SalzDaniel Salz, Maxim NeumannMaxim Neumann, Ibrahim AlabdulmohsinIbrahim Alabdulmohsin, Michael TschannenMichael Tschannen, Emanuele BugliarelloEmanuele Bugliarello, Thomas Unterthiner, Daniel KeysersDaniel Keysers, Skanda KoppulaSkanda Koppula, Fangyu LiuFangyu Liu, Adam Grycner, Alexey GritsenkoAlexey Gritsenko, Neil HoulsbyNeil Houlsby, Manoj Kumar, KeranKeran Rong, Julian EisenschlosJulian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen, Matthias MindererMatthias Minderer, Paul Voigtlaender, Ioana BicaIoana Bica, Ivana Balazevic, Joan PuigcerverJoan Puigcerver, Pinelopi Papalampidi, Olivier HenaffOlivier Henaff, Xi XiongXi Xiong, Radu Soricut, Jeremiah HarmsenJeremiah Harmsen, Xiaohua ZhaiXiaohua Zhai

摘要

AI 生成总结
PaliGemma,一个基于 SigLIP-So400m 和 Gemma-2B 的通用视觉-语言模型,在众多开放世界任务中表现出强大的性能,包括遥感和分割等专业领域。
PaliGemma 是一个开放的视觉-语言模型 (VLM),它基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。它被训练成为一个多功能且知识广泛的基础模型,可以有效地进行迁移。它在各种开放世界任务中都取得了出色的性能。我们评估了 PaliGemma 在近 40 个不同的任务上的性能,包括标准 VLM 基准测试,以及更专业的任务,例如遥感和分割。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screen Shot 2024-07-10 at 10.55.19 PM.png

mervemerve

也请阅读 hf.co/blog/paligemma

Jeremy PintoJeremy Pinto

微调后的模型是否将在 huggingface 上提供?