⏶0

量化模型对输入降级的鲁棒性在目标检测中的应用

08月27日发表

09月01日由 Allan Kazakov 提交

作者: Toghrul Karimov, Hassan Imani, Allan Kazakov

摘要

在资源受限的设备上部署 YOLO 等高效目标检测模型，训练后量化（PTQ）至关重要。然而，降低精度对模型在面对真实世界输入退化（如噪声、模糊和压缩伪影）时的鲁棒性的影响是一个重大的担忧。本文介绍了一项全面的实证研究，评估了 YOLO 模型（从 nano 到 extra-large 尺度）在多种精度格式下的鲁棒性：FP32、FP16（TensorRT）、动态 UINT8（ONNX）和静态 INT8（TensorRT）。我们针对静态 INT8 PTQ 引入并评估了一种退化感知校准策略，其中 TensorRT 校准过程会暴露于清洁图像和合成退化图像的混合。在 COCO 数据集上，模型在七种不同的退化条件（包括各种类型和级别的噪声、模糊、低对比度和 JPEG 压缩）以及混合退化场景下进行了基准测试。结果表明，虽然静态 INT8 TensorRT 引擎在清洁数据上提供了显著的加速（约 1.5-3.3 倍），并且准确率适度下降（约 3-7% mAP50-95），但所提出的退化感知校准在大多数模型和退化条件下，并未带来比标准清洁数据校准一致的、广泛的鲁棒性提升。在特定噪声条件下，对于较大的模型尺度观察到了一个显著的例外，这表明模型容量可能会影响这种校准方法的有效性。这些发现凸显了提高 PTQ 鲁棒性的挑战，并为在不受控环境中部署量化检测器提供了见解。所有代码和评估表均可在 https://github.com/AllanK24/QRID 获取。

查看 arXiv 页面查看 PDF

Allan Kazakov

论文作者

论文提交者

我们评估了训练后量化（PTQ）如何影响YOLO检测器在真实世界图像降级下的鲁棒性。INT8（TensorRT）可提供约1.5-3.3倍的速度提升，但在干净COCO数据集上会损失约3-7 mAP50-95；通过简单的“降级感知”（50/50 干净+损坏）校准，鲁棒性大多没有提高，只有在最大的模型上有所提升。

我们做了什么。在COCO val2017上评估了五种YOLO尺度（n→x）在FP32 / FP16（TensorRT）、动态UINT8（ONNX）和静态INT8（TensorRT）上的表现，然后又在7种降级（高斯噪声/模糊，两种强度，低对比度，重度JPEG，以及混合集）下进行了重新测试。INT8的校准使用了干净图像或50/50 干净+降级图像的混合。批次大小为1；我们报告了mAP50-95、mAP50和延迟。

关键要点：

FP16在准确率上与FP32相当，并显著降低了延迟（例如，YOLO-x：61.3→18.2 ms）。动态UINT8（ONNX）保持了FP32的准确率，但比FP32 TensorRT慢。静态INT8速度最快，但在干净数据上会损失几个mAP点。
噪声是真正的罪魁祸首。中等高斯噪声在各种模型/精度上导致相对mAP下降最大；模糊影响适中；低对比度和重度JPEG影响较小。

arXiv

降级感知校准（50/50混合）通常与干净校准的INT8相似；显著的例外是：YOLO-x在噪声下（例如，嘈杂-中等：混合下降28.1% vs 干净下降34.7%）。

量化模型对输入降级的鲁棒性在目标检测中的应用

摘要

评论