学习抗遮挡的视觉 Transformer 用于实时无人机跟踪

04月12日发表
04月18日由 you wuyou wu 提交
作者: you wuYou Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li

摘要

最近,使用 Vision Transformer (ViT) 主干的单流架构在实时无人机跟踪方面显示出巨大的潜力。然而,来自建筑物和树木等障碍物的频繁遮挡暴露了一个主要缺点:这些模型通常缺乏有效处理遮挡的策略。需要新的方法来增强单流 ViT 模型在空中跟踪中的遮挡鲁棒性。在这项工作中,我们建议通过强制目标特征表示相对于空间 Cox 过程建模的随机掩蔽操作的不变性,来学习基于 ViT 的无人机跟踪的遮挡鲁棒表示 (ORR)。希望这种随机掩蔽能够近似模拟目标遮挡,从而使我们能够学习对无人机跟踪中的目标遮挡具有鲁棒性的 ViT。此框架称为 ORTrack。此外,为了促进实时应用,我们提出了一种自适应基于特征的知识蒸馏 (AFKD) 方法来创建更紧凑的跟踪器,该跟踪器根据任务的难度自适应地模仿教师模型 ORTrack 的行为。这个学生模型被称为 ORTrack-D,它保留了 ORTrack 的大部分性能,同时提供了更高的效率。在多个基准上的广泛实验验证了我们方法的有效性,证明了其最先进的性能。代码可在 https://github.com/wuyou3474/ORTrack 上找到。
查看 arXiv 页面查看 PDF

评论

you wuyou wu
论文作者
论文提交者

最近,使用 Vision Transformer (ViT) 主干的单流架构在实时无人机跟踪方面显示出巨大的潜力。然而,来自建筑物和树木等障碍物的频繁遮挡暴露了一个主要缺点:这些模型通常缺乏有效处理遮挡的策略。需要新的方法来增强单流 ViT 模型在空中跟踪中的遮挡鲁棒性。在这项工作中,我们建议通过强制目标特征表示相对于空间 Cox 过程建模的随机掩蔽操作的不变性,来学习基于 ViT 的无人机跟踪的遮挡鲁棒表示 (ORR)。希望这种随机掩蔽能够近似模拟目标遮挡,从而使我们能够学习对无人机跟踪中的目标遮挡具有鲁棒性的 ViT。此框架称为 ORTrack。此外,为了方便实时应用,我们提出了一种自适应的基于特征的知识蒸馏 (AFKD) 方法来创建更紧凑的跟踪器,该跟踪器根据任务的难度自适应地模仿教师模型 ORTrack 的行为。这个被称为 ORTrack-D 的学生模型保留了 ORTrack 的大部分性能,同时提供了更高的效率。在多个基准上的广泛实验验证了我们方法的有效性,证明了其最先进的性能。代码可在 https://github.com/wuyou3474/ORTrack 获取。