通过下一个点预测检测任何事物

发表
taesiritaesiri 提交
作者: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang

摘要

物体检测长期以来一直由传统的基于坐标回归的模型主导,例如 YOLO、DETR 和 Grounding DINO。尽管最近的努力试图利用 MLLM 来处理这项任务,但它们面临着召回率低、预测重复、坐标不匹配等挑战。在这项工作中,我们弥合了这一差距,并提出了 Rex-Omni,一个达到最先进物体感知性能的 3B 规模 MLLM。在 COCO 和 LVIS 等基准测试中,Rex-Omni 在零样本设置下达到了与回归模型(例如 DINO、Grounding DINO)相当或优于它们的性能。这得益于三个关键设计:1)任务表述:我们使用特殊标记来表示从 0 到 999 的量化坐标,降低了模型的学习难度,并提高了坐标预测的标记效率;2)数据引擎:我们构建了多个数据引擎来生成高质量的 grounding、referring 和 pointing 数据,为训练提供语义丰富的监督;3)训练流程:我们采用两阶段训练过程,结合了对 2200 万个数据进行监督微调和基于 GRPO 的强化后训练。这种 RL 后训练利用了几何感知奖励,以有效弥合离散到连续坐标预测的差距,提高框精度,并减轻由于初始 SFT 阶段的教师指导性质而产生的重复预测等不良行为。除了传统的检测,Rex-Omni 内置的语言理解能力使其能够实现多功能的任务,如 object referring、pointing、visual prompting、GUI grounding、spatial referring、OCR 和 key-pointing,所有这些都在专用基准上进行了系统评估。我们相信 Rex-Omni 为更通用、更具语言感知能力的视觉感知系统铺平了道路。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

目标检测长期以来一直由 YOLO、DETR 和 Grounding DINO 等传统的基于坐标回归的模型主导。尽管近期的工作试图利用 MLLM 来处理这项任务,但它们面临着召回率低、重复预测、坐标不匹配等挑战。在这项工作中,我们弥合了这一差距,并提出了 Rex-Omni,一个 3B 规模的 MLLM,可实现最先进的目标感知性能。在 COCO 和 LVIS 等基准测试中,Rex-Omni 在零样本(zero-shot)设置下达到了与回归模型(例如 DINO、Grounding DINO)相当甚至更优的性能。这得益于三个关键设计:1)任务表述:我们使用特殊标记来表示从 0 到 999 的量化坐标,降低了模型的学习难度,并提高了坐标预测的标记效率;2)数据引擎:我们构建了多个数据引擎来生成高质量的定位、指代和点指数据,为训练提供了语义丰富的监督;3)训练管道:我们采用了两阶段训练过程,将 2200 万数据的监督微调与基于 GRPO 的强化后训练相结合。这种 RL 后训练利用了感知几何的奖励来有效弥合离散到连续的坐标预测差距,提高框的准确性,并减轻因初始 SFT 阶段的教师引导性质而产生的重复预测等不良行为。除了传统的检测,Rex-Omni 本身的语言理解能力使其具备了多样的功能,如目标指代、点指、视觉提示、GUI 定位、空间指代、OCR 和关键点定位,所有这些都在专门的基准测试上进行了系统评估。我们相信 Rex-Omni 为更通用、更具语言意识的视觉感知系统铺平了道路。

Krystian ZawistowskiKrystian Zawistowski

与 Florence2 非常相似 https://arxiv.org/pdf/2311.06242