⏶71

PaliGemma：用于迁移的多功能 3B VLM

07月10日发表

04月12日由

AK 提交

作者:

Lucas Beyer

Lucas Beyer, Andreas Steiner, André Susano Pinto, Alexander Kolesnikov, Xiao Wang, Daniel Salz,

Maxim Neumann

Maxim Neumann,

Ibrahim Alabdulmohsin

Ibrahim Alabdulmohsin,

Michael Tschannen

Michael Tschannen,

Emanuele Bugliarello

Emanuele Bugliarello, Thomas Unterthiner,

Daniel Keysers

Daniel Keysers,

Skanda Koppula

Skanda Koppula,

Fangyu Liu

Fangyu Liu, Adam Grycner,

Alexey Gritsenko

Alexey Gritsenko,

Neil Houlsby

Neil Houlsby, Manoj Kumar, Keran

Keran

Keran Rong,

Julian Eisenschlos

Julian Eisenschlos, Rishabh Kabra, Matthias Bauer, Matko Bošnjak, Xi Chen,

Matthias Minderer

Matthias Minderer, Paul Voigtlaender,

Ioana Bica

Ioana Bica, Ivana Balazevic,

Joan Puigcerver

Joan Puigcerver, Pinelopi Papalampidi,

Olivier Henaff

Olivier Henaff,

Xi Xiong

Xi Xiong, Radu Soricut,

Jeremiah Harmsen

Jeremiah Harmsen,

Xiaohua Zhai

Xiaohua Zhai

摘要

PaliGemma 是一个开放的视觉-语言模型 (VLM)，它基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。它被训练成为一个多功能且知识广泛的基础模型，可以有效地进行迁移。它在各种开放世界任务中都取得了出色的性能。我们评估了 PaliGemma 在近 40 个不同的任务上的性能，包括标准 VLM 基准测试，以及更专业的任务，例如遥感和分割。

查看 arXiv 页面查看 PDF

评论

AK

论文提交者

Screen Shot 2024-07-10 at 10.55.19 PM.png

Merve Noyan

Merve Noyan

也请阅读 hf.co/blog/paligemma

Jeremy Pinto

Jeremy Pinto

微调后的模型是否将在 huggingface 上提供？

Yunus Serhat Bıçakçı

Yunus Serhat Bıçakçı

> 微调后的模型是否将在 huggingface 上提供？

我认为它已经可用了。

https://huggingface.co/collections/google/paligemma-release-6643a9ffbf57de2ae0448dda

https://huggingface.co/collections/google/paligemma-ft-models-6643b03efb769dad650d2dda