⏶9
使用固定文本编码器进行语言-图像对齐
发表
由
Jingfeng Yang 提交

作者:
Jingfeng Yang,
Ziyang Wu, Yue Zhao, Yi Ma

摘要
目前,建立语言-图像对齐的主流方法是通过对比学习共同预训练文本和图像编码器,例如 CLIP 及其变体。在这项工作中,我们质疑这种昂贵的共同训练是否必要。特别是,我们研究了预训练的固定大型语言模型 (LLM) 是否能提供足够好的文本编码器来指导视觉表示学习。也就是说,我们提出通过仅训练图像编码器来学习使用来自 LLM 的固定文本编码器 (LIFT) 进行语言-图像对齐。令人惊讶的是,通过全面的基准测试和消融研究,我们发现这个大大简化的 LIFT 框架非常有效,在涉及组合理解和长标题的大多数场景中,它都优于 CLIP,同时在计算效率上取得了显著提升。我们的工作迈出了系统探索 LLM 的文本嵌入如何指导视觉学习的第一步,并为学习与语言对齐的视觉表示提供了另一种设计选择。
评论
做得很好,但是没有讨论任何之前的重要相关工作,包括:
Zhang, Le, Qian Yang, and Aishwarya Agrawal. "Assessing and Learning Alignment of Unimodal Vision and Language Models." 计算机视觉与模式识别会议论文集. 2025.
Ruthardt, Jona, et al. "Do better language models have crisper vision?." arXiv预印本 arXiv:2410.07173 (2024).
Zhai, Xiaohua, et al. "Lit: Zero-shot transfer with locked-image text tuning." IEEE/CVF 计算机视觉与模式识别会议论文集. 2022.
LIFT 和 CLIP 之间的一些定性比较!第一行显示 LIFT 选择的字幕或选项,第二行显示 CLIP 选择的。在每种情况下,LIFT 都选择了正确的,而 CLIP 则没有。我们观察到 LIFT 弥补了 CLIP 在涉及组合信息(例如,空间位置、对象属性关联、对象间关系)任务中的不足。