AgroBench:农业视觉语言模型基准

发表
Risa ShinodaRisa Shinoda 提交
作者: Risa Shinoda, Nakamasa Inoue, Hirokatsu Kataoka, Masaki Onishi, Yoshitaka Ushiku

摘要

对病害识别等农业任务的精准自动化理解对于可持续作物生产至关重要。视觉语言模型(VLM)的最新进展有望通过便捷的、基于文本的交流来促进人机交互,从而进一步扩展农业任务的范围。在此,我们推出了 AgroBench(农学家AI基准测试),这是一个用于评估 VLM 模型在七个农业主题上表现的基准,涵盖了农业工程的关键领域并与现实世界的农业实践相关。与近期的其他农业 VLM 基准不同,AgroBench 由农学专家进行标注。我们的 AgroBench 覆盖了前沿的类别范围,包括 203 个作物品种和 682 个病害种类,以全面评估 VLM 的能力。在我们对 AgroBench 的评估中,我们发现 VLM 在细粒度识别任务上仍有提升空间。值得注意的是,在杂草识别方面,大多数开源 VLM 的表现接近于随机猜测。借助我们广泛的主题和专家标注的类别,我们分析了 VLM 所犯错误的类型,并为未来 VLM 的发展提出了可能的路径。我们的数据集和代码可在 https://dahlian00.github.io/AgroBenchPage/ 获取。
查看 arXiv 页面查看 PDF
AgroBench:农业视觉语言模型基准

评论

Risa ShinodaRisa Shinoda
论文提交者

在此,我们推出 AgroBench(农艺师 AI 基准),这是一个用于评估 VLM 模型在七个农业主题上的基准,涵盖农业工程的关键领域,并与实际农业生产相关。与近期农业 VLM 基准不同,AgroBench 由专业农艺师进行标注。我们的 AgroBench 涵盖了最先进的类别范围,包括 203 种作物类别和 682 种病害类别,旨在全面评估 VLM 的能力。我们在 AgroBench 上的评估揭示,VLM 在细粒度识别任务中仍有改进空间。值得注意的是,在杂草识别方面,大多数开源 VLM 的表现接近随机。凭借我们广泛的主题和专家标注的类别,我们分析了 VLM 犯错的类型,并为未来的 VLM 发展提出了潜在路径。我们的数据集和代码可在 https://dahlian00.github.io/AgroBenchPage/ 获取。