⏶17
VisionReasoner:通过强化学习实现的统一视觉感知与推理
发表
由
Zhisheng Zhong 提交
作者:
Yuqi Liu,
Tianyuan Qu,
Zhisheng Zhong,
Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia

摘要
大型视觉-语言模型展现出处理多样化视觉感知任务的固有能力。在本文中,我们提出了VisionReasoner,这是一个统一的框架,能够在同一个共享模型中进行推理并解决多个视觉感知任务。具体而言,通过设计新颖的多对象认知学习策略和系统的任务重塑,VisionReasoner增强了其分析视觉输入的推理能力,并在统一框架中处理多样化的感知任务。该模型在提供响应用户查询的所需输出之前,会生成一个结构化的推理过程。为了严格评估统一的视觉感知能力,我们在涵盖检测、分割和计数这三个关键领域的十个不同任务上评估了VisionReasoner。实验结果表明,VisionReasoner 作为一个统一模型取得了卓越的性能,在 COCO (检测)、ReasonSeg (分割) 和 CountBench (计数) 数据集上,相比 Qwen2.5VL 分别取得了 29.1%、22.1% 和 15.3% 的相对性能提升。
论文: https://arxiv.org/pdf/2505.12081
代码: https://github.com/dvlab-research/VisionReasoner
模型: https://huggingface.co/Ricky06662/VisionReasoner-7B https://huggingface.co/Ricky06662/TaskRouter-1.5B
数据: https://huggingface.co/datasets/Ricky06662/VisionReasoner_multi_object_1k_840