⏶5
通过 LLM 代理的零样本视觉编码器嫁接
发表
由
Kaiyu Yue 提交

作者:
Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein

摘要
视觉语言模型 (VLMs) 通常将一个中等大小的视觉编码器与一个大型语言模型 (LLM)(例如 Llama-70B)配对,使得解码器成为训练期间主要的计算负担。为了降低成本,一个有前景的潜在策略是先使用小型语言模型训练视觉编码器,然后再将其转移到大型模型。我们构建了小型“替代模型”(surrogate models),通过直接继承大型目标 LLM 的浅层,这些模型共享相同的嵌入空间和表示语言。在替代模型上训练的视觉编码器然后可以直接转移到大型模型,我们称之为零样本嫁接(zero-shot grafting)。当直接插入到完整大小的目标 LLM 时,嫁接后的组合优于编码器-替代模型组合,并且在一些基准测试上,其表现甚至与使用目标 LLM 进行的完整解码器训练相当。此外,当使用 Llama-70B 作为解码器时,我们的替代模型训练方法将 VLM 的总体训练成本降低了约 45%。
-