无标签视觉语言模型适应:一项全面调查

发表
Hao DongHao Dong 提交
作者: Hao DongHao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

摘要

视觉-语言模型(VLMs)在广泛的任务中展现出卓越的泛化能力。然而,当直接应用于特定的下游场景时,若没有进行任务特定的适应,它们的性能往往不尽如人意。为了在保持数据效率的同时提升其实用性,近期研究日益关注不依赖标注数据的无监督适应方法。尽管该领域日益受到关注,但目前仍缺乏针对无监督VLM适应的统一、面向任务的综述。为了弥补这一空白,我们对该领域进行了全面而有条理的概述。我们基于无标签视觉数据的可用性和性质,提出了一种分类法,将现有方法分为四大关键范式:无数据迁移(无数据)、无监督领域迁移(丰富数据)、偶发测试时适应(批量数据)和在线测试时适应(流数据)。在此框架内,我们分析了与每种范式相关的核心方法论和适应策略,旨在建立对该领域的系统性理解。此外,我们回顾了跨越不同应用的代表性基准,并强调了未来的开放性挑战和有前景的研究方向。一个持续更新的相关文献库可在 https://github.com/tim-learn/Awesome-LabelFree-VLMs 获取。
查看 arXiv 页面查看 PDF

评论

Hao DongHao Dong
论文作者
论文提交者

视觉-语言模型(VLM),如CLIP,已经展示出令人印象深刻的零样本能力;然而,在实际部署中,如果缺乏适应,它们的性能可能会下降。收集带标签的数据成本高昂,因此无监督适应已成为一种强大的替代方案。

在本调查中,我们根据未标记视觉数据的可用性,首次提出了无监督VLM适应的分类法。我们将现有方法分为四种范式:

1️⃣ 免数据迁移

2️⃣ 无监督领域迁移

3️⃣ 情景式测试时适应

4️⃣ 在线测试时适应

taxonomy.png