⏶37
YOLO-World:实时开放词汇目标检测
01月30日发表
04月12日由
AK 提交

作者:
Tianheng Cheng, Lin Song,
Yixiao Ge, Wenyu Liu,
Xinggang Wang,
Ying Shan

摘要
“你只看一次” (YOLO) 系列检测器已确立自己为高效实用的工具。然而,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这个限制,我们推出了 YOLO-World,这是一种创新方法,通过视觉-语言建模和大规模数据集上的预训练,增强了 YOLO 的开放词汇检测能力。具体而言,我们提出了一种新的可重参数化视觉-语言路径聚合网络 (RepVL-PAN) 和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零样本方式高效地检测各种对象。在具有挑战性的 LVIS 数据集上,YOLO-World 在 V100 上以 52.0 FPS 的速度实现了 35.4 AP,在准确性和速度方面都优于许多最先进的方法。此外,微调后的 YOLO-World 在多个下游任务(包括对象检测和开放词汇实例分割)上取得了卓越的性能。
https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/JVhnh5Ibm7MO6uVko4KKF.mp4
👉 订阅: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix