C-DiffDet+:融合全局场景上下文和生成去噪以实现高保真目标检测

发表
Salah Eddine BekhoucheSalah Eddine Bekhouche 提交
作者: abdellah zakaria sellamAbdellah Zakaria Sellam, Ilyes benaissaIlyes Benaissa, Salah Eddine BekhoucheSalah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante

摘要

在具有挑战性的视觉领域(如车辆损坏评估)中的细粒度对象检测,即使对人类专家来说也是一个严峻的挑战,难以可靠地解决。尽管 DiffusionDet 通过条件去噪扩散(conditional denoising diffusion)取得了最先进的进展,但其性能仍然受到在上下文相关场景中局部特征条件的限制。我们通过引入上下文感知融合(Context-Aware Fusion,CAF)来解决这一根本性限制,CAF 利用交叉注意力机制将全局场景上下文与局部提案特征直接集成。全局上下文是使用一个独立的专用编码器生成的,该编码器捕获全面的环境信息,使每个对象提案都能关注场景级理解。我们的框架通过使每个对象提案能够关注全面的环境信息,显著增强了生成检测范式。实验结果表明,在 CarDD 基准测试上,相比于最先进的模型有所改进,为细粒度领域中的上下文感知对象检测树立了新的性能标杆。
查看 arXiv 页面查看 PDF
C-DiffDet+:融合全局场景上下文和生成去噪以实现高保真目标检测

评论

Salah Eddine BekhoucheSalah Eddine Bekhouche
论文作者
论文提交者

在充满挑战的视觉领域,例如车辆损坏评估,进行细粒度的物体检测,即使对人类专家来说也是一个难以可靠解决的难题。虽然 DiffusionDet 通过条件去噪扩散技术推进了最先进的技术,但其性能仍然受到上下文相关场景中局部特征条件的限制。我们通过引入上下文感知融合(CAF)来解决这一根本性限制,CAF 利用交叉注意力机制将全局场景上下文与局部提议特征直接集成。全局上下文使用一个独立的专用编码器生成,该编码器捕获全面的环境信息,使每个物体提议都能感知场景级别的理解。我们的框架使每个物体提议都能感知全面的环境信息,从而显著增强了生成检测范例。实验结果表明,在 CarDD 基准测试上,我们相比最先进的模型有所改进,在细粒度领域的上下文感知物体检测方面树立了新的性能基准。