评估用于非洲野生动物图像分类的深度学习模型:从DenseNet到Vision Transformer

发表
Lukman Jibril AliyuLukman Jibril Aliyu 提交
作者: Lukman Jibril AliyuLukman Jibril Aliyu, Umar Sani Muhammad, Bilqisu Ismail, Nasiru Muhammad, Almustapha A Wakili, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad, Mustapha Abdullahi

摘要

非洲的野生动物种群面临严重的威胁,过去五十年中脊椎动物的数量下降了65%以上。为了应对这一挑战,使用深度学习进行图像分类已成为生物多样性监测和保护的一种有前景的工具。本文对用于自动分类非洲野生动物图像的深度学习模型进行了比较研究,重点是使用冻结特征提取器的迁移学习。我们使用一个包含四种物种的公共数据集:水牛、大象、犀牛和斑马;评估了DenseNet-201、ResNet-152、EfficientNet-B4和Vision Transformer ViT-H/14的性能。DenseNet-201在卷积网络中取得了最佳性能(67%的准确率),而ViT-H/14取得了最高的总体准确率(99%),但计算成本显著提高,引发了部署方面的担忧。我们的实验突出了准确性、资源需求和可部署性之间的权衡。性能最佳的CNN (DenseNet-201) 被集成到 Hugging Face Gradio Space 中,用于实时现场使用,证明了在保护环境中部署轻量级模型的可行性。这项工作通过为野生动物保护提供关于模型选择、数据集准备和深度学习工具的负责任部署的实践见解,为以非洲为基础的人工智能研究做出了贡献。
查看 arXiv 页面查看 PDF
评估用于非洲野生动物图像分类的深度学习模型:从DenseNet到Vision Transformer

评论

Lukman Jibril AliyuLukman Jibril Aliyu
论文作者
论文提交者

我们对用于非洲野生动物图像分类的深度学习架构进行了比较评估,重点关注来自平衡公共数据集的四种物种(水牛、大象、犀牛、斑马)。我们使用具有冻结特征的迁移学习来评估 DenseNet-201、ResNet-152、EfficientNet-B4 和 Vision Transformer (ViT-H/14) 的性能。 ViT-H/14 实现了最高的准确率 (99%),但计算成本很高。 DenseNet-201 在准确率 (67%) 和可部署性之间提供了最佳的权衡,并部署为用于保护用途的实时 Hugging Face Gradio Space。这项工作通过解决伦理部署、领域转移和资源受限环境中生态监测的轻量级建模,为立足非洲的人工智能做出贡献。

Philip AkomolafePhilip Akomolafe

@librarian-bot 你对这篇论文怎么看?

如何在现实世界中应用它,至少对环境带来一些改变?