⏶11
无标签视觉语言模型适应:一项全面调查
发表
由
Hao Dong 提交
作者:
Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
摘要
视觉-语言模型(VLMs)在广泛的任务中展现出卓越的泛化能力。然而,当直接应用于特定的下游场景时,若没有进行任务特定的适应,它们的性能往往不尽如人意。为了在保持数据效率的同时提升其实用性,近期研究日益关注不依赖标注数据的无监督适应方法。尽管该领域日益受到关注,但目前仍缺乏针对无监督VLM适应的统一、面向任务的综述。为了弥补这一空白,我们对该领域进行了全面而有条理的概述。我们基于无标签视觉数据的可用性和性质,提出了一种分类法,将现有方法分为四大关键范式:无数据迁移(无数据)、无监督领域迁移(丰富数据)、偶发测试时适应(批量数据)和在线测试时适应(流数据)。在此框架内,我们分析了与每种范式相关的核心方法论和适应策略,旨在建立对该领域的系统性理解。此外,我们回顾了跨越不同应用的代表性基准,并强调了未来的开放性挑战和有前景的研究方向。一个持续更新的相关文献库可在 https://github.com/tim-learn/Awesome-LabelFree-VLMs 获取。
视觉-语言模型(VLM),如CLIP,已经展示出令人印象深刻的零样本能力;然而,在实际部署中,如果缺乏适应,它们的性能可能会下降。收集带标签的数据成本高昂,因此无监督适应已成为一种强大的替代方案。
在本调查中,我们根据未标记视觉数据的可用性,首次提出了无监督VLM适应的分类法。我们将现有方法分为四种范式:
1️⃣ 免数据迁移
2️⃣ 无监督领域迁移
3️⃣ 情景式测试时适应
4️⃣ 在线测试时适应