使用固定文本编码器进行语言-图像对齐

发表
Jingfeng YangJingfeng Yang 提交
作者: Jingfeng YangJingfeng Yang, Ziyang WuZiyang Wu, Yue Zhao, Yi Ma

摘要

目前,建立语言-图像对齐的主流方法是通过对比学习共同预训练文本和图像编码器,例如 CLIP 及其变体。在这项工作中,我们质疑这种昂贵的共同训练是否必要。特别是,我们研究了预训练的固定大型语言模型 (LLM) 是否能提供足够好的文本编码器来指导视觉表示学习。也就是说,我们提出通过仅训练图像编码器来学习使用来自 LLM 的固定文本编码器 (LIFT) 进行语言-图像对齐。令人惊讶的是,通过全面的基准测试和消融研究,我们发现这个大大简化的 LIFT 框架非常有效,在涉及组合理解和长标题的大多数场景中,它都优于 CLIP,同时在计算效率上取得了显著提升。我们的工作迈出了系统探索 LLM 的文本嵌入如何指导视觉学习的第一步,并为学习与语言对齐的视觉表示提供了另一种设计选择。
查看 arXiv 页面查看 PDF

评论

Jingfeng YangJingfeng Yang
论文作者
论文提交者

LIFT 和 CLIP 之间的一些定性比较!第一行显示 LIFT 选择的字幕或选项,第二行显示 CLIP 选择的。在每种情况下,LIFT 都选择了正确的,而 CLIP 则没有。我们观察到 LIFT 弥补了 CLIP 在涉及组合信息(例如,空间位置、对象属性关联、对象间关系)任务中的不足。

Screenshot 2025-06-05 at 16.07.22.png

Screenshot 2025-06-05 at 16.08.39.png

Jingfeng YangJingfeng Yang
论文作者
论文提交者

LIFT 的管道,它采用了类似于 CLIP 的双塔架构。LIFT 使用基于 LLM 的文本编码器来预计算每个文本样本的嵌入。在训练过程中,我们仅更新图像编码器和投影头,通过优化对齐目标来使图像嵌入与预计算的文本嵌入对齐。

pipeline.png

Jingfeng YangJingfeng Yang
论文作者
论文提交者

项目页面:https://jingfeng0705.github.io/LIFT/lift.html

le.zhangle.zhang

做得很好,但是没有讨论任何之前的重要相关工作,包括:

  1. Zhang, Le, Qian Yang, and Aishwarya Agrawal. "Assessing and Learning Alignment of Unimodal Vision and Language Models." 计算机视觉与模式识别会议论文集. 2025.

  2. Ruthardt, Jona, et al. "Do better language models have crisper vision?." arXiv预印本 arXiv:2410.07173 (2024).

  3. Zhai, Xiaohua, et al. "Lit: Zero-shot transfer with locked-image text tuning." IEEE/CVF 计算机视觉与模式识别会议论文集. 2022.