⏶135
PaliGemma 2:用于迁移的多功能VLM系列
12月04日发表
04月12日由
Omar Sanseviero 提交

作者: Andreas Steiner, André Susano Pinto,
Michael Tschannen,
Daniel Keysers, Xiao Wang,
Yonatan Bitton,
Alexey Gritsenko,
Matthias Minderer,
Anthony Sherbondy,
Shangbang Long, Siyang Qin, Reeve Ingle,
Emanuele Bugliarello, Sahar Kazemzadeh,
Thomas Mesnard,
Ibrahim Alabdulmohsin,
Lucas Beyer,
Xiaohua Zhai




摘要
PaliGemma 2 是 PaliGemma 开放视觉-语言模型 (VLM) 的升级版,它基于 Gemma 2 系列语言模型。我们将 PaliGemma 也使用的 SigLIP-So400m 视觉编码器与 Gemma 2 模型的整个范围结合起来,从 2B 模型一直到 27B 模型。我们在三个分辨率(224px、448px 和 896px)分多个阶段训练这些模型,使其具备通过微调进行迁移的广泛知识。由此产生的涵盖不同模型尺寸和分辨率的基础模型系列使我们能够研究影响迁移性能的因素(例如学习率),并分析任务类型、模型尺寸和分辨率之间的相互作用。我们进一步增加了迁移任务的数量和广度,超出了 PaliGemma 的范围,包括不同的 OCR 相关任务,例如表格结构识别、分子结构识别、乐谱识别,以及长细粒度字幕和放射线报告生成,PaliGemma 2 在这些任务上获得了最先进的结果。
PaliGemma 2 论文在这里!