PaliGemma 2:用于迁移的多功能VLM系列

12月04日发表
04月12日由 Omar SansevieroOmar Sanseviero 提交
作者: Andreas Steiner, André Susano Pinto, Michael TschannenMichael Tschannen, Daniel KeysersDaniel Keysers, Xiao Wang, YonatanYonatan Bitton, Alexey GritsenkoAlexey Gritsenko, Matthias MindererMatthias Minderer, Anthony SherbondyAnthony Sherbondy, ShangbangLongShangbang Long, Siyang Qin, Reeve Ingle, Emanuele BugliarelloEmanuele Bugliarello, Sahar Kazemzadeh, Thomas MesnardThomas Mesnard, Ibrahim AlabdulmohsinIbrahim Alabdulmohsin, Lucas BeyerLucas Beyer, Xiaohua ZhaiXiaohua Zhai

摘要

PaliGemma 2 是 PaliGemma 开放视觉-语言模型 (VLM) 的升级版,它基于 Gemma 2 系列语言模型。我们将 PaliGemma 也使用的 SigLIP-So400m 视觉编码器与 Gemma 2 模型的整个范围结合起来,从 2B 模型一直到 27B 模型。我们在三个分辨率(224px、448px 和 896px)分多个阶段训练这些模型,使其具备通过微调进行迁移的广泛知识。由此产生的涵盖不同模型尺寸和分辨率的基础模型系列使我们能够研究影响迁移性能的因素(例如学习率),并分析任务类型、模型尺寸和分辨率之间的相互作用。我们进一步增加了迁移任务的数量和广度,超出了 PaliGemma 的范围,包括不同的 OCR 相关任务,例如表格结构识别、分子结构识别、乐谱识别,以及长细粒度字幕和放射线报告生成,PaliGemma 2 在这些任务上获得了最先进的结果。

评论

Omar SansevieroOmar Sanseviero
论文提交者

PaliGemma 2 论文在这里!

Nicholas BroadNicholas Broad

@osanseviero,模型什么时候上传?

Merve NoyanMerve Noyan

@nbroad 它们已经上传并链接到此论文页面

Nicholas BroadNicholas Broad

@merve,我发誓我问的时候那里还没有 😅

CraigCraig
此评论已隐藏。
Moritz LaurerMoritz Laurer

在此版本中是否没有像 PaliGemma1 那样在任务混合上训练的 -mix 模型?这些是 PaliGemma1 最受欢迎的变体 most popular

Pengchuan ZhangPengchuan Zhang

感谢您的出色工作!

关于论文中表 7(PaliGemma 2 在 VSR 上的准确率)的一个问题。PaliGemma2 模型是否在 VSR 训练集拆分上进行了微调?VSR 训练集是否在 PaliGemma2 模型的训练数据中(无论是预训练数据还是微调数据)?