⏶6
跨领域鲁棒性:CLIP 需要一个鲁棒的文本编码器
发表
由
Christian Schlarmann 提交
作者: Elias Abad Rocamora,
Christian Schlarmann, Naman Deep Singh, Yongtao Wu, Matthias Hein, Volkan Cevher
摘要
对抗性输入攻击可能导致 CLIP 嵌入的显著偏移。这可能会影响将 CLIP 整合到其流程中的模型的下游鲁棒性,例如文本到图像生成模型或大型视觉语言模型。尽管已有一些努力旨在增强 CLIP 图像编码器的鲁棒性,但文本编码器的鲁棒性仍未得到探索。在这项工作中,我们弥补了这一文献空白。我们提出了 LEAF:一种高效的文本领域对抗性微调方法,能够扩展到大型 CLIP 模型。我们的模型显著提高了文本领域的零样本对抗性准确性,同时保持了由鲁棒图像编码器提供的视觉性能。当与文本到图像扩散模型结合时,我们可以在对抗性噪声下提高生成质量。在多模态检索任务中采用我们的鲁棒 CLIP 编码器时,我们在对抗性噪声下的召回率优于标准 CLIP 模型。最后,我们表明鲁棒文本编码器通过直接优化有助于从其嵌入中更好地重建输入文本。
双域鲁棒性:CLIP 需要一个鲁棒的文本编码器