⏶5
RF-DETR 目标检测对比YOLOv12:基于Transformer和CNN架构在复杂果园环境下标签模糊性下的单类别与多类别青果检测研究
发表
由
Ranjan Sapkota 提交

作者:
Ranjan Sapkota,
Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee

摘要
本研究详细比较了 RF-DETR 目标检测基础模型和 YOLOv12 目标检测模型配置,用于检测复杂果园环境中受标签歧义、遮挡和背景融合影响的青果。开发了一个自定义数据集,其中包含单类(青果)和多类(遮挡和非遮挡青果)注释,以评估模型在动态真实世界条件下的性能。RF-DETR 目标检测模型采用 DINOv2 主干和可变形注意力机制,在全局上下文建模方面表现出色,有效识别了部分遮挡或模糊的青果。相比之下,YOLOv12 利用基于 CNN 的注意力机制来增强局部特征提取,从而优化了计算效率和边缘部署。RF-DETR 在单类检测中取得了最高的平均精度均值 (mAP50) 0.9464,证明了其在杂乱场景中定位青果的卓越能力。尽管 YOLOv12N 记录了最高的 mAP@50:95 值为 0.7620,但 RF-DETR 在复杂的空间场景中始终表现更出色。对于多类检测,RF-DETR 以 mAP@50 0.8298 领先,显示了其区分遮挡和非遮挡水果的能力,而 YOLOv12L 在 mAP@50:95 中得分最高,为 0.6622,表明在详细的遮挡上下文中具有更好的分类效果。训练动态分析突出了 RF-DETR 的快速收敛性,尤其是在单类设置中,它在 10 个 epoch 内趋于平稳,证明了基于 Transformer 的架构在适应动态视觉数据方面的效率。这些发现验证了 RF-DETR 在精准农业应用中的有效性,而 YOLOv12 则适用于快速响应场景。 >索引词:RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs


本研究全面比较了 RF-DETR 目标检测和 YOLOv12 目标检测模型在复杂果园环境中对青果识别的应用,这些环境的特点是标签模糊、遮挡和背景伪装。我们开发了一个定制数据集,其中包含单类别(青果)和多类别(遮挡和非遮挡青果)注释,以评估模型在真实世界条件下的性能。RF-DETR 目标检测模型利用具有可变形注意力机制的 DINOv2 主干网络,在全局上下文建模方面表现出色,这被证明对于识别部分遮挡或视觉模糊的青果特别有效。相反,YOLOv12 模型采用基于 CNN 的注意力机制来增强局部特征提取,从而优化其计算效率和边缘部署适用性。在单类别检测场景中,RF-DETR 实现了最高的平均精度均值 (mAP@50),为 0.9464,展示了其在杂乱场景中精确定位青果的强大能力。尽管 YOLOv12N 实现了最高的 mAP@50:95,为 0.7620,但 RF-DETR 目标检测模型在管理复杂的空间场景方面始终表现更出色。在多类别检测中,RF-DETR 再次以 mAP@50 领先,达到 0.8298,证明了其在区分遮挡和非遮挡水果方面的有效性,而 YOLOv12L 在 mAP@50:95 指标上名列前茅,为 0.6622,表明在详细遮挡条件下具有卓越的分类能力。模型训练动态分析表明,RF-DETR 的收敛速度很快,尤其是在单类别场景中,它在不到 10 个 epoch 时就达到了稳定状态,突显了基于 Transformer 的架构对动态视觉数据的效率和适应性。这些结果证实了 RF-DETR 适用于对精度要求高的农业任务,而 YOLOv12 仍然是速度敏感型部署的理想选择。