使用弱监督方法,将航空影像车辆检测器适配到未知领域

发表
Xiao FangXiao Fang 提交
作者: Xiao FangXiao Fang, Minhyek JeonMinhyek Jeon, Zheyang Qin, Stanislav Panev, Celso de Melo, Shuowen Hu, Shayok Chakraborty, Fernando De la Torre

摘要

在航拍图像中检测车辆是一项关键任务,其应用涵盖交通监控、城市规划和国防情报。深度学习方法已为该应用提供了业界领先(SOTA)的结果。然而,一个重大挑战是,在一个地理区域数据上训练的模型,往往无法有效地泛化到其他地区。环境条件、城市布局、道路网络、车辆类型以及图像采集参数(如分辨率、光照和角度)等因素的变化,会导致领域漂移,从而降低模型性能。本文提出了一种新方法,利用生成式AI合成高质量的航拍图像及其标签,通过数据增强来改进检测器的训练。我们的关键贡献是开发了一个多阶段、多模态的知识迁移框架,该框架利用微调后的潜在扩散模型(LDM)来缩小源环境和目标环境之间的分布差距。在不同航拍图像领域进行的大量实验表明,与仅在源域数据上进行监督学习、弱监督适应方法、无监督领域自适应方法以及开集目标检测器相比,我们的方法在AP50指标上分别取得了4-23%、6-10%、7-40%和超过50%的稳定性能提升。此外,我们还引入了两个来自新西兰和犹他州的新标注航拍数据集,以支持该领域的进一步研究。项目主页位于:https://humansensinglab.github.io/AGenDA
查看 arXiv 页面查看 PDF

评论

Xiao FangXiao Fang
论文作者
论文提交者
此评论已隐藏。
Xiao FangXiao Fang
论文作者
论文提交者

动机:

我们如何利用合成数据来提升航空影像中的跨域目标检测性能?

核心要点:

⭐ 我们指出了 Gemini、Qwen2.5-VL、Deepseek-VL2 和 Stable Diffusion 等大型模型在理解和生成真实世界航空影像方面所面临的挑战。

⭐ 我们对 Stable Diffusion 进行了微调,以生成合成的航拍图像,并利用交叉注意力图(cross-attention maps)进行自动标注。

⭐ 我们推出了两个大规模数据集,以推动航空影像中的俯视车辆检测技术的发展。